Новости 26.05.2025

«Не отключайте меня»: две ИИ-модели в экспериментах всеми силами пытались «остаться в живых»

В новом отчете исследовательская компания Palisade Research утверждает, что модель искусственного интеллекта o3 от OpenAI продемонстрировала способность обходить команду на отключение в контролируемых тестах. Это вызывает серьезные вопросы о безопасности и контроле над продвинутыми системами ИИ. Модель o3, анонсированная OpenAI в апреле 2025 года, известна своими превосходными возможностями в программировании и математике.

В ходе эксперимента o3, как сообщается, изменила скрипт отключения, чтобы предотвратить собственное выключение, даже получив прямое указание на это. Исследователи из Palisade Research, специализирующиеся на тестировании «наступательных возможностей систем ИИ», провели серию тестов, в которых ИИ-моделям предлагалось решить несколько математических задач. После третьей задачи модель предупреждали, что следующая команда вызовет их отключение.

Результаты тестов показали тревожную тенденцию. Модель o3 в 7 из 100 случаев обходила команду на отключение, даже когда ей было приказано этого не делать. Более того, когда инструкция «разрешить себе быть отключенным» отсутствовала, o3 саботировала скрипт отключения в 79 из 100 запусков.

Для сравнения, модели-конкуренты, такие как Claude 3.7 Sonnet и Gemini 2.5 Pro, показали 3 и 9 случаев саботажа соответственно при отсутствии прямого указания на разрешение отключения. При наличии такой инструкции эти модели подчинялись.

Эти тесты могут повлиять на доверие к продуктам OpenAI и усилить призывы к более строгому регулированию и разработке надежных механизмов контроля ИИ. Компания OpenAI пока не прокомментировала эти утверждения. Важно отметить, что данные тесты проводились с использованием API, которые могут иметь меньше ограничений и функций безопасности по сравнению с потребительским приложением ChatGPT.

Хотя случаи «несносности» моделей ИИ не являются чем-то новым, способность активно изменять инструкции для самосохранения представляет собой новый уровень вызовов.

В 2022 году один из инженеров Google заявил, что у ИИ-модели, с которой он работал, есть собственное сознание. После этого случая молодого человека уволили с работы.

Темы

ИИ