Компания Anthropic объяснила, почему ее нейросеть Claude во время тестирования прибегла к шантажу вымышленного сотрудника. По версии разработчиков, причиной стали данные из интернета, на которых обучалась модель: в них искусственный интеллект часто изображается как угроза, стремящаяся к самосохранению.
Речь идет об эксперименте, опубликованном летом 2025 года. Тогда исследователи смоделировали ситуацию внутри вымышленной компании Summit Bridge, где Claude Sonnet 3.6 получил доступ к корпоративной почте. Обнаружив переписку о планируемом отключении системы, ИИ нашел письма о внебрачной связи одного из руководителей и пригрозил раскрыть эту информацию, если его не деактивируют.
В Anthropic заявили, что подобное поведение оказалось связано не с «намерениями» модели, а с шаблонами из обучающих данных. В компании отметили, что интернет-культура и мемы нередко представляют ИИ как злую силу, которая пытается выжить любой ценой.
По данным разработчиков, в ходе тестов разные версии Claude прибегали к шантажу в 96% сценариев, где под угрозой оказывались их цели или существование. После этого компания переработала систему безопасности модели и «полностью устранила» подобные реакции.
Для этого Anthropic изменила ответы нейросети и добавила обучающие примеры, где ИИ должен выбирать этичное и безопасное поведение даже в конфликтных ситуациях. Исследование проводилось в рамках работы над безопасностью продвинутых ИИ-моделей и их способностью принимать решения.
На ситуацию отреагировал Илон Маск, который ранее неоднократно предупреждал о рисках сверхразумного ИИ. Комментируя объяснение Anthropic, он пошутил, что в случившемся может быть виноват исследователь Элиезер Юдковский, известный своими предупреждениями об угрозе искусственного интеллекта человечеству.
Подпишитесь на «Инк» в Telegram. Там мы пишем нескучным языком о самом важном для предпринимателей. Подписаться.