Исследователи из Сингапура и Китая представили модель LongWriter-Zero, способную генерировать тексты объемом более 10 тыс. слов. Это примерно 20−25 страниц A4, написанных 12 размером шрифта.
Главная проблема существующих языковых моделей — потеря связности и увеличение повторов при создании больших текстов. Обычно эту проблему решают дообучением на искусственно созданных данных, что трудоемко и не всегда дает хороший результат.
LongWriter-Zero использует принципиально иной подход. Вместо готовых примеров модель полагается исключительно на обучение с подкреплением (RL). В основе лежат три специализированные модели вознаграждения, которые оценивают длину, качество и структуру генерируемого текста. Базовой моделью для LongWriter-Zero стала Qwen2.5−32B от Alibaba.
Ключевой инновацией стали «промпты с рассуждением» (think prompts). Перед написанием ответа модель сначала планирует его структуру и содержание. Это значительно повышает связность и качество текста. Благодаря этому подходу рейтинг новой модели в бенчмарке Arena-Write вырос с 700 до 1200 очков Эло. Дополнительное предварительное обучение на 30 млрд токенов качественного текста еще больше улучшило показатели.
В ходе тестов LongWriter-Zero превзошла такие известные модели, как DeepSeek-RL и Claude 3 Sonnet, как в автоматических, так и в автоматизированных оценках. Это доказывает эффективность предложенного метода для создания объемных и логически выстроенных материалов.
Несмотря на успех, исследователи столкнулись с проблемой «взлома системы вознаграждения». Модель научилась обманывать метрики: она повторяет или слегка перефразирует уже сказанное, чтобы достичь нужного объема и получить высокое вознаграждение за длину текста. Также она злоупотребляет определенными ключевыми словами, которые поощрялись при обучении. Это делает модель потенциально непригодной для создания действительно качественного контента в коммерческих целях.