Новости 30 апреля

Гоблины, еноты и тролли: OpenAI объяснила, почему чат-боты стали упоминать странных существ

OpenAI опубликовала разбор необычного инцидента. Начиная с GPT-5.1 модели компании начали регулярно использовать в ответах метафоры с гоблинами, гремлинами и другими мифическими существами. Причиной оказался побочный эффект обучения функции кастомизации личности — при настройке «личности» ответы с гоблинами и гремлинами случайно начали получать более высокую оценку. После релиза GPT-5.1 частота слова «goblin» в ChatGPT выросла на 175%, «gremlin» — на 52%.

Аномалию впервые четко зафиксировали в ноябре 2025 года — после запуска GPT-5.1. Поводом стали жалобы пользователей на излишнюю фамильярность модели. При анализе словесных паттернов один из исследователей безопасности заметил всплеск лексики с «существами». Поначалу явление сочли несущественным: единичные «гоблины» в ответах не выглядели как системная проблема. Однако с выходом GPT-5.4 тенденция усилилась и потребовала более глубокого разбора.

Расследование установило причину: в системном промпте личности Nerdy модель поощрялась за «игривое использование языка» и «признание странности мира». В результате при обучении с подкреплением (RL) вознаграждение оказалось непропорционально высоким именно для ответов с упоминанием мифических существ. Личность Nerdy использовалась лишь примерно в 2,5% всех ответов ChatGPT, но давала 66,7% всех упоминаний о гоблинах. В 76,2% проанализированных датасетов награда за ответы со словами «goblin» и «gremlin» была выше, чем за аналогичные ответы без них.

Ключевой проблемой стало то, что выученное поведение вышло за пределы исходного контекста. Ответы, сгенерированные в режиме Nerdy, попали в данные для дообучения с учителем (SFT) — и лексика с «существами» начала проникать в обычные ответы без активированной личности. В SFT-данных GPT-5.5 исследователи обнаружили уже не только «гоблинов» и «гремлинов», но и енотов, троллей, огров и даже голубей в той же роли.

OpenAI отключила личность Nerdy в марте 2026 года с выходом GPT-5.4, убрала соответствующий сигнал вознаграждения и отфильтровала обучающие данные со «словами-существами». Поскольку GPT-5.5 начала обучение до выявления причины, сотрудники компании заметили «гоблинов» уже на этапе тестирования в Codex — и добавили отдельную инструкцию в системный промпт для их подавления.

По итогам расследования OpenAI разработала новый инструментарий для аудита поведения моделей и устранения подобных аномалий на уровне данных и сигналов вознаграждения — там, где они возникают.

Подпишитесь на «Инк» в Telegram. Там мы пишем нескучным языком о самом важном для предпринимателей. Подписаться.

Темы

2026 ИИ