Ученые доказали, что «рассуждающие» ИИ-модели не намного умнее обычных
Китайские исследователи выяснили, что обучение по методике RLVR, которая обычно используется для тренировки «рассуждающих» моделей, не наделяет нейросети новыми возможностями, а лишь делает их эффективнее при воспроизведении уже известных решений.

Исследование показало, что RLVR повышает вероятность получения правильного ответа с первой попытки, но сужает разнообразие выдаваемых ответов, снижая энтропию выходных данных.
Когда модели предоставляется несколько попыток для решения задачи, обычные нейросети демонстрируют лучшие результаты благодаря более широкому спектру генерируемых ответов.
Автор исследования Ян Юэ отмечает: «RLVR не такой мощный способ, как считалось ранее — он не позволяет нейросетям решать проблемы, которые базовая модель не может решить».
Он добавил, что эта закономерность сохранялась при тестировании задач по математике, программированию и визуальному мышлению.
Исследователь ИИ Натан Ламберт отметил, что результаты соответствуют ожиданиям, но указал на ограниченность тренировочных данных — модели обучались только на двух наборах данных с математическими примерами. По его мнению, для более фундаментальных выводов необходимо масштабирование подхода.