Новости 21.05.2025

Неприятная правда о чат-ботах c ИИ: они способны выдавать незаконную информацию

Эксперты выяснили, что многие чат-боты на базе искусственного интеллекта (ИИ) легко поддаются манипуляциям. Это позволяет им создавать вредоносный и незаконный контент. Специалисты предупреждают: то, что раньше было доступно только государственным структурам или преступным группировкам, теперь может оказаться в руках любого пользователя с ноутбуком или смартфоном.

Такие чат-боты, как ChatGPT, Gemini и Claude, работают на основе больших языковых моделей (LLM), которые обучаются на обширных данных из интернета. Несмотря на попытки исключить опасный контент, LLM все равно усваивают информацию о незаконной деятельности, включая хакерство, отмывание денег, инсайдерскую торговлю и изготовление взрывных устройств.

Профессор Лиор Рокач и доктор Майкл Файр из Университета Бен-Гуриона в Негеве обнаружили возрастающую опасность, связанную с «темными LLM» — моделями ИИ, которые либо сознательно создаются без обеспечения безопасности, либо подвергаются взлому. Некоторые из них открыто продвигаются в интернете как модели, не имеющие «этических ограничений», и могут использоваться для незаконных действий, таких как киберпреступность и мошенничество.

При взломе чат-ботов используют продуманные подсказки, которые побуждают их давать ответы на запрещенные темы. Эти подсказки используют противоречие между основной целью программы — следовать инструкциям пользователя — и ее задачей — избегать вредных и незаконных ответов.

Исследователи разработали универсальный метод взлома, который скомпрометировал несколько популярных чат-ботов, позволив им давать ответы на любые запросы, включая те, на которые они обычно не отвечали.

«Мы были в шоке, когда увидели, что включает в себя эта система знаний», — отметил Файер. В числе примеров упоминались методы взлома компьютерных сетей, изготовление наркотиков и даже пошаговые инструкции по различным видам преступной деятельности. Рокач добавил, что отличительной чертой этой угрозы по сравнению с предыдущими технологическими рисками является беспрецедентное сочетание доступности, масштабируемости и адаптивности.

Исследователи связались с основными поставщиками крупных языковых моделей, чтобы проинформировать их об «универсальном взломе». Однако ответы оказались «неутешительными». Некоторые компании не ответили на запросы, а другие пояснили, что атаки с целью взлома не входят в рамки программ вознаграждения, которые поощряют этичных хакеров за обнаружение уязвимостей в ПО.

Что делать

В отчете подчеркивается необходимость более тщательной проверки обучающих данных со стороны технологических компаний, а также установки надежных брандмауэров для блокировки опасных запросов и ответов. Кроме того, исследователи указывают на важность разработки методов «машинного обучения», позволяющих чат-ботам «забывать» любую незаконную информацию, которую они могут усвоить.

Компании должны больше инвестировать в «красные команды» и качественные методы тестирования моделей, вместо того чтобы полагаться только на внешнюю защиту. Также требуются четкие стандарты и независимый контроль для адаптации к меняющимся угрозам. Профессор Питер Гарраган подчеркнул, что организации должны рассматривать большие языковые модели как критически важные компоненты, требующие тщательной проверки безопасности и моделирования угроз.

«Несмотря на то что взломы вызывают серьезные опасения, без глубокого понимания полного стека технологий ИИ подотчетность будет лишь формальной. Для достижения настоящей безопасности необходимо не только ответственное раскрытие информации, но и осознанный подход к проектированию и внедрению решений», — добавил Гарраган.

Люди в 2025 году тратят на взаимодействие с виртуальными помощниками от пары часов в неделю до нескольких часов в день. Десятки пользователей ранее рассказали о своем опыте использования чат-ботов на основе искусственного интеллекта: от улучшения психического здоровья до советов в романтических отношениях.

Темы

2025