Китайская компания DeepSeek в сотрудничестве с исследователями из Университета Цинхуа разработала новую технологию совершенствования способностей к рассуждению у больших языковых моделей (LLM). Метод объединяет генеративное моделирование вознаграждения (GRM) и самостоятельную настройку критики на основе принципов. По данным исследователей, модели DeepSeek-GRM превзошли в тестах все существующие методы.
Фото: Freepik
Новая методика ученых называется Self-Principled Critique Tuning (SPCT). Ее идея заключается в том, что модель самостоятельно генерирует набор принципов и критериев для оценки ответов ИИ, а затем использует их для вынесения суждения. Это позволяет DeepSeek-GRM адаптивно подстраиваться под различные типы запросов и давать более точные оценки.
По сравнению с традиционными подходами, SPCT позволяет эффективно масштабировать вычисления во время вывода, запуская несколько параллельных оценок и агрегируя результаты.
Эксперименты показали, что DeepSeek-GRM-27B с использованием метамодели для голосования (MetaRM) при 32 параллельных вычислениях достигает средней точности 72,8% на нескольких бенчмарках. Это лучше, чем у GPT-4o (71,3%) и Nemotron-4-340B-Reward (70,5%).
Исследователи также обнаружили, что параллельный вывод позволяет значительно улучшить качество ответов небольших нейросетей. Так, в экспериментах алгоритм с 27 млрд параметров смог превзойти огромную модель с 671 млрд параметров.
Особенность DeepSeek-GRM в том, что она показывает сбалансированные результаты на разных типах задач без серьезных искажений в какой-либо области, в отличие от конкурентов.
Авторы отмечают, что их подход имеет большой потенциал для применения в конвейерах RL для больших языковых моделей, а также может служить надежным инструментом для оценки базовых моделей.