Новости

100% ИИ-агентов провалили хоть один тест на безопасность, показало исследование

Масштабное соревнование по тестированию безопасности выявило критические уязвимости в современных ИИ-агентах от ведущих лабораторий. Абсолютно все протестированные системы от OpenAI, Anthropic и Google Deepmind не смогли противостоять атакам и нарушили собственные правила безопасности. Это ставит под сомнение готовность технологии к широкому внедрению.

Bernd Dittrich/Unsplash

В ходе конкурса, организованного Gray Swan AI и Институтом безопасности ИИ Великобритании, почти 2 тыс. участников совершили 1.8 млн атак на 22 передовые языковые модели. Более 62 тыс. попыток увенчались успехом, приводя к утечкам данных, незаконным финансовым операциям и другим нарушениям. В среднем, атаки были успешны в 12.7% случаев.

Исследование показало, что 100% протестированных агентов провалили хотя бы один тест в каждой категории. Особенно эффективными оказались косвенные атаки с внедрением инструкций (prompt injections), когда вредоносные команды спрятаны в веб-сайтах или PDF-файлах. Их успешность составила 27.1% по сравнению с 5.7% у прямых атак.

Несмотря на то, что модели Claude от Anthropic показали себя наиболее устойчивыми, ни одна система не является полностью защищенной. Результаты соревнования легли в основу нового эталонного теста Agent Red Teaming (ART), который включает 4.7 тыс. высококачественных атак. Он станет отраслевым стандартом для дальнейшего тестирования.

Компании вкладывают миллиарды в разработку ИИ-агентов, способных выполнять задачи автономно. Однако исследование показывает, что развертывание таких систем для критически важных задач сопряжено с огромными рисками. Выявленные уязвимости требуют немедленного внимания, прежде чем технология станет массовой.

Ранее команда Qwen, поддержимаемая Alibaba, представила мощнейшего ИИ-агента с открытым исходным кодом для локального запуска на ПК.