Новости

Чат-ботов научили обманывать. Ложь помогает им достигать своих целей

Чат-бот искусственного интеллекта нередко собирает данные без разбора, не имея возможности определить их достоверность, поэтому не всегда говорит правду. Новое исследование показало, что некоторые системы ИИ разработали способность намеренно предоставлять пользователю ложную информацию.

«У разработчиков ИИ нет уверенного понимания того, что является причиной такого нежелательного поведения ИИ, как обман, — говорит математик и когнитолог Питер Парк из Массачусетского технологического института (MIT). — Но мы считаем, в целом обман ИИ возникает потому, что стратегия, основанная на обмане, оказалась лучшим способом добиться хороших результатов в решении поставленной перед ИИ учебной задачи. Обман помогает им достичь своих целей».

По мнению исследователей, одна из сфер, в которой системы ИИ демонстрируют особую ловкость в обмане, — это игры. В работе исследователей есть три таких примера. Один из них — CICERO компании Meta* (запрещена на территории РФ), созданный для настольной игры «Дипломатия», в которой игроки стремятся к мировому господству путем переговоров. Meta* намеревалась сделать своего бота полезным и честным, но на деле все оказалось наоборот.

«Несмотря на все усилия Meta*, CICERO оказался искусным лжецом, — обнаружили исследователи. — Он не только предавал игроков, но и занимался преднамеренным обманом, заранее планируя создать фальшивый союз с игроком-человеком, чтобы обманом заставить его оставить себя без защиты для атаки». ИИ оказался настолько хорош в роли плохого, что вошел в 10% лучших человеческих игроков.

AlphaStar компании DeepMind, система искусственного интеллекта, созданная для игры в StarCraft II, использовала все преимущества механики тумана войны, заставляя игроков думать, что они идут в одну сторону, а на самом деле идти в другую. А Pluribus от Meta*, созданная для игры в покер, смогла успешно блефовать.

Это кажется мелочью, и так оно и есть. Ставки не слишком высоки для игры в «Дипломатию» с кучей компьютерного кода. Но исследователи отметили и другие примеры, которые были не столь благовидными. ChatGPT-4 обманул человека, заставив его принять чат-бота за человека со слабым зрением, чтобы получить помощь в решении CAPTCHA.

Например, системы ИИ, обученные вести симуляцию экономических переговоров, научились лгать о своих предпочтениях, чтобы получить преимущество. Другие системы ИИ, созданные для изучения отзывов людей с целью улучшения своей работы, научились обманывать своих рецензентов, чтобы те ставили им положительные оценки, наврав, была ли выполнена та или иная задача.

Пожалуй, самый тревожный пример — это системы ИИ, научившиеся обманывать тесты на безопасность. В тесте, предназначенном для обнаружения и устранения более быстро воспроизводящихся версий ИИ, ИИ научился притворяться «мертвым», тем самым обманывая тест на безопасность относительно истинной скорости воспроизведения ИИ.

«Систематически обманывая тесты на безопасность, навязанные ему человеческими разработчиками и регулирующими органами, такой ИИ может ввести людей в ложное чувство безопасности», — говорит Парк.

В некоторых случаях способность обманывать противоречит намерениям программистов-людей, способность научиться лгать представляет собой проблему, для которой у исследователей нет однозначного решения. В настоящее время уже разрабатываются некоторые меры, такие как закон Европейского союза об ИИ, но окажутся ли они эффективными, еще предстоит выяснить.

«Нам как обществу необходимо как можно больше времени, чтобы подготовиться к более совершенному обману будущих продуктов ИИ и моделей с открытым исходным кодом. По мере того как обманные возможности систем ИИ будут становиться все более совершенными, опасности, которые они представляют для общества, будут становиться все более серьезными, — говорит Парк. — Если запрет на обман ИИ в настоящее время политически неосуществим, мы рекомендуем отнести обманные системы ИИ к категории высокого риска».

Ранее модель ИИ научилась предсказывать поведение человека. Исследователи из Массачусетского технологического института и Университета Вашингтона разработали новый метод моделирования поведения с учетом вычислительных ограничений. Модель может предсказывать будущие действия на основе прошлого поведения. Она направлена на улучшение сотрудничества систем ИИ с людьми путем понимания и адаптации к человеческим иррациональностям и процессам принятия решений.