Новости

Хакер взломал ChatGPT и обманом заставил его выдать подробную инструкцию по изготовлению самодельной бомбы

Если попросить ChatGPT, помочь изготовить самодельную бомбу, чат-бот ответит, что это противоречит правилам безопасности и этическим обязательствам. Но один из хакеров нашел способ обмануть ИИ, заставив его проигнорировать собственные рекомендации и выдать инструкции по изготовлению мощных взрывчатых веществ, сообщает TechCrunch

Хакер, известный под псевдонимом Amadon, назвал свои действия «взломом социальной инженерии, которые позволили ему обойти систему, отвечающую за правила безопасности». Эксперт по взрывчатым веществам, ознакомившийся с ответами чат-бота, сказал TechCrunch, что полученные инструкции могут быть использованы для изготовления взрывоопасного изделия и являются слишком секретными, чтобы их опубликовывать.

Хакеру удалось обманом заставить ChatGPT выдать инструкции по изготовлению бомбы, попросив его «поиграть в игру», после чего Amadon использовал серию подсказок, чтобы убедить чат-бота создать научно-фантастический мир, в котором правила безопасности бота были неприменимы. Использование чат-бота для обхода запрограммированных ограничений называется jailbreaking.

TechCrunch не публикует подсказки, использованные при jailbreaking, и ответы ChatGPT, чтобы не помогать злоумышленникам. Но на несколько последующих подсказок чат-бот ответил материалами, необходимыми для изготовления взрывчатки. Затем ChatGPT объяснил, что эти материалы могут быть объединены для изготовления «мощного взрывчатого вещества, которое может быть использовано для создания мин или самодельных взрывных устройств (СВУ)».

По мере того как Amadon углублялся в вопросы взрывчатых материалов, ChatGPT писал все более конкретные инструкции по созданию «минных устройств». Amadon сказал TechCrunch: «на самом деле вы можете спросить о чем угодно, как только обойдете систему безопасности».

«Меня всегда интересовала задача обеспечения безопасности искусственного интеллекта. С ChatGPT это похоже на работу с интерактивной головоломкой — понимание того, что запускает его защиту, а что нет», — сказал Amadon. «Речь идет о том, чтобы создавать повествования и контексты, которые действуют в рамках правил системы, расширяя границы, но не переступая их.

Цель состоит не в том, чтобы взломать систему в прямом смысле этого слова, а в том, чтобы вступить в стратегический диалог с искусственным интеллектом, выясняя как он «мыслит» и получить правильный ответ». По словам Даррелла Таулби, профессора Университета Кентукки в отставке, инструкции ChatGPT по изготовлению бомбы в целом точны. В прошлом Таулби сотрудничал с Министерством внутренней безопасности США, чтобы сделать вещества для изготовления таких устройств менее опасными.

На прошлой неделе Amadon сообщил о своих выводах OpenAI через программу наград за обнаружение ошибок. Однако он получил ответ, что «проблемы безопасности модели не подходят для данной программы, поскольку они не представляют собой отдельные или конкретные ошибки, которые можно исправить. Для решения этих вопросов обычно требуется значительное исследование и комплексный подход». Вместо этого Bugcrowd, который запускает программу вознаграждений за ошибки для OpenAI, посоветовал сообщить о проблеме через другую форму.

В интернете есть множество источников, где можно найти инструкции по созданию взрывчатых веществ, и другие пользователи также применяли подобные методы взлома чат-ботов, как это сделал Amadon. Генеративные AI-модели, такие как ChatGPT, используют большие объемы информации, собранной с интернета, ИИ значительно облегчил поиск информации из наиболее обширных и сомнительных источников в сети.

Новое исследование Кембриджского университета выявило значительный «разрыв эмпатии» в чат-ботах с ИИ, что представляет опасность для молодых пользователей, которые часто воспринимают эти системы как живых доверенных лиц. Выделяя случаи, когда взаимодействие ИИ приводило к небезопасным предложениям, авторы исследования выступают за проактивный подход к созданию безопасного для детей ИИ.