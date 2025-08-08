Новая модель Grok 4 от компании xAI обошла представленную 7 августа модель GPT-5 от OpenAI в сложном тесте на общие логические рассуждения ARC-AGI-2. Это один из немногих тестов, в котором люди могут набрать 100%, а передовые нейросети — не более 20%.

Mariia Shalabaieva/Unsplash

В тесте ARC-AGI-2, который оценивает именно логику, а не эрудицию, Grok 4 показал результат около 16%. GPT-5 отстал, набрав всего 9,9%. Однако победа Grok 4 досталась дорогой ценой. Стоимость решения одной задачи для этой модели составляет от $2 до $4, в то время как GPT-5 справился с ней всего за $0,73. Это делает решение от OpenAI более выгодным с коммерческой точки зрения.

В менее сложном тесте ARC-AGI-1 разрыв оказался меньше: Grok 4 набрал около 68%, а GPT-5 — 65,7%. При этом стоимость задачи для Grok 4 составила около $1, а для GPT-5 — в два раза ниже. Это еще раз подтверждает, что OpenAI предлагает лучшее соотношение цены и качества на данный момент. Однако в будущем xAI может снизить стоимость использования моделей за счет оптимизации вычислительных ресурсов или же за счет квантования — техники, которая «облегчает» ИИ-модель, но может немного снижать ее точность.

Тем не менее, для решения сложнейших логических проблем, где цена не имеет значения, Grok 4 является лидером. Однако для массового применения, где важна экономическая эффективность, GPT-5 и его более легкие версии (Mini и Nano) остаются предпочтительным выбором.

Интересно, что OpenAI не упомянула результаты этого теста на своей презентации GPT-5. Более того, предыдущая модель o3-preview, выпущенная в декабре 2024 года, до сих пор удерживает первое место в тесте ARC-AGI-1 с результатом почти 80%, хотя и с очень высокой стоимостью. Это говорит о том, что в гонке за логическое мышление у ИИ еще есть нераскрытый потенциал.