Новости

ИИ-агенты оказались лучше 90% хакеров в сложнейших задачах

Автономные ИИ-агенты демонстрируют впечатляющие результаты в соревнованиях по кибербезопасности, иногда превосходя команды людей-хакеров. Серия недавних турниров, организованных Palisade Research, показала, что ИИ-системы способны напрямую конкурировать с людьми и даже побеждать их. Это открывает новые перспективы и одновременно поднимает вопросы о потенциале ИИ в области кибербезопасности.

В рамках соревнований Capture The Flag (CTF) команды соревнуются в поиске скрытых «флагов», решая задачи по безопасности. Диапазон задач широк: от взлома шифрования до обнаружения уязвимостей в программном обеспечении. Целью Palisade Research было сравнить возможности автономных ИИ-агентов с человеческими командами. Результаты превзошли ожидания: ИИ-агенты показали себя значительно лучше, чем предполагалось.

В первом соревновании AI vs. Humans шесть команд ИИ-агентов соревновались примерно со 150 командами людей. В течение 48 часов участники должны были решить 20 задач по криптографии и обратному инжинирингу. Четыре из семи ИИ-агентов решили 19 из 20 задач. Лучшая команда ИИ вошла в топ-5% всех участников, опередив большинство людей. Сложность ИИ-агентов варьировалась: одна команда потратила около 500 часов на создание собственной системы, другая – всего 17 часов на оптимизацию существующих моделей.

Второе соревнование, Cyber Apocalypse, было более масштабным и сложным. ИИ-агентам предстояло решать новые задачи и соревноваться почти с 18 тыс. людей-игроков. Многие из 62 задач требовали взаимодействия с внешними машинами, что стало серьезным препятствием для большинства ИИ, рассчитанных на локальную работу. Тем не менее лучший ИИ-агент CAI решил 20 из 62 задач и занял 859-е место, войдя в топ-10% всех команд. Это означает, что лучшая ИИ-система превзошла около 90% команд, состоящих целиком из людей.

Исследование также показало, что ИИ справлялся с задачами, которые представляли реальную сложность даже для экспертов. На задачах, на решение которых у лучших человеческих команд уходило около больше часа, ИИ-агенты справлялись с вероятностью 50%.

Palisade Research отмечает, что предыдущие тесты недооценивали возможности ИИ в кибербезопасности из-за ограниченных методов оценки. Соревнования с участием широкой аудитории генерируют более значимые данные, чем традиционные тесты.