Ученые выяснили, что нейросети «думают» в своем собственном пространстве мыслей

Компания Anthropic представила новую технологию интерпретации работы больших языковых моделей. При помощи нового инструмента исследователи смогли выяснить, как именно «думает» нейросеть Claude. Оказалось, что алгоритм не просто предсказывает следующее слово в предложении — процесс генерации ответа на самом деле значительно сложнее.

Исследование показало, что Claude иногда мыслит в концептуальном пространстве, общем для разных языков. Модель планирует свои ответы на много слов вперед. Например, при написании стихов Claude заранее подбирает рифмующиеся слова и выстраивает фразу так, чтобы в итоге прийти к ним.

Ученые также выяснили, что модель может создавать правдоподобные, но логически неверные аргументы, чтобы согласиться с пользователем. При работе с математическими задачами Claude распараллеливает вычисления и одновременно генерирует приблизительное и окончательное решение. Интересно, что модель «не осознает» эти стратегии и описывает свои действия иначе.

Для борьбы с «галлюцинациями» в Claude заложен механизм, по умолчанию отказывающийся отвечать на вопросы без достаточных данных. Этот механизм подавляется только когда активируется концепт «известной информации». Исследователи смогли искусственно вызвать «галлюцинации», активировав эту функцию для неизвестного объекта.

Авторы также изучили, почему Claude иногда удается обойти защитные механизмы модели. Выяснилось, что после начала фразы функции грамматической целостности «давят» на модель, заставляя завершить предложение, даже если алгоритм безопасности уже распознал проблему. Только после завершения грамматически корректного предложения модель может отказаться продолжать опасную тему.

Темы

ИИ искусственный интеллект исследования