Meta* схитрила при тестировании Llama 4, чтобы выделиться среди конкурентов
Компанию Meta* уличили в манипуляциях с результатами тестов своих новых ИИ-моделей. Недавно компания выпустила две новые нейросети из семейства Llama 4: Scout (компактная модель для быстрых запросов) и Maverick (конкурент GPT-4o от OpenAI). В своем анонсе компания представила результаты тестов своих алгоритмов на бенчмарках, которые показали превосходство новых нейросетей с открытым исходным кодом над «закрытыми» конкурентами — Google, OpenAI и Anthropic.
Фото: Freepik
Подозрения возникли, когда эксперты обратили внимание на необычно высокий результат модели Maverick в тесте LMArena. Meta* утверждала, что нейросеть смогла достичь рейтинга Эло 1417, что поместило ее на второе место в таблице лидеров — сразу после Gemini 2.5 Pro. При более детальном изучении выяснилось, что тестируемая версия Maverick отличалась от публично доступной — была запрограммирована быть более «разговорчивой», что помогло ей получить лучшие оценки в тесте.
Представители платформы LMArena — инструмента совместного бенчмаркинга с открытым исходным кодом, где пользователи могут голосовать за лучший результат — подчеркнули, что компания должна была четко указать, что нейросеть Llama-4-Maverick-03-26-Experimental — это модель, специально настроенная под предпочтения пользователей.
Подобное манипулирование тестами не является новым явлением. Однако чаще всего разработчики алгоритмов используют другие стратегии, чтобы выделиться среди конкурирующих продуктов. Например, специально обучают нейросеть так, чтобы она правильно отвечала на вопросы из конкретных бенчмарков. При этом на практике такой алгоритм может быть слабее конкурентов.