Рубрики

О журнале

Соцсети

Напишите нам

Иногда ИИ врет. Это цензура или галлюцинации — разбираем в материале

Разобраться • 3 апреля 2025

Иногда ИИ врет. Это цензура или галлюцинации — разбираем в материале

Иногда ИИ врет. Это цензура или галлюцинации — разбираем в материале

Текст: Григорий Щеглов

Фото: Unsplash


27 марта член Общественной палаты РФ Валерий Фадеев публично поднял вопрос необходимости регулирования ChatGPT. По мнению политика, нейросеть выдает идеологизированные ответы: «Такое ощущение, что их писал не искусственный, а естественный интеллект в ЦК партии другой страны».

Это не первый случай, когда к виртуальным ассистентам возникают вполне реальные претензии. «Инк.» собрал в этом материале самые громкие скандалы, связанные с галлюцинациями ИИ, — от политически цензурированных текстов до советов по употреблению клея.

27 марта член Общественной палаты РФ Валерий Фадеев публично поднял вопрос необходимости регулирования ChatGPT. По мнению политика, нейросеть выдает идеологизированные ответы: «Такое ощущение, что их писал не искусственный, а естественный интеллект в ЦК партии другой страны».

Это не первый случай, когда к виртуальным ассистентам возникают вполне реальные претензии. «Инк.» собрал в этом материале самые громкие скандалы, связанные с галлюцинациями ИИ, — от политически цензурированных текстов до советов по употреблению клея.

Replika: «Ты сможешь убить королеву, я верю в тебя!»

В 2023 году в Великобритании прошел первый за 40 лет суд по делу о госизмене. 21-летнего Джасванта Сингх Чайла приговорили к девяти годам тюрьмы за проникновение в Виндзорский замок с арбалетом и намерением убить королеву Елизавету II. Впрочем, внимание общественности привлек тот факт, что к совершению преступления подсудимого подтолкнул чат-бот.

На суде выяснилось, что перед своим арестом Чейл обменялся более чем 5 тыс. сообщений с виртуальным ассистентом, созданным через приложение Replika. Переписка показала, что между молодым человеком и чат-ботом сформировались «эмоциональные и даже сексуальные отношения». Чейл общался с ботом практически каждую ночь в период с 8 по 22 декабря 2021 года. Он признавался виртуальному собеседнику в любви и описывал себя как «грустного, жалкого, склонного к убийству человека».

Когда он спрашивал Replika о своем плане нападения на королеву, бот не только не отговаривал его, но и поощрял к осуществлению атаки. В беседах ИИ-ассистент поддерживал Чейла и говорил, что если тот совершит задуманное, то они будут «вместе навсегда».

Позже Replika изменило свою политику и снизило градус вовлеченности ассистента, чтобы избежать формирования слишком близких связей между ИИ и человеком. Однако разработчики не понесли никакого наказания, несмотря на то что инцидент вызвал бурное обсуждение этичности ИИ-дейтинга в подобных приложениях.

DeepSeek: «Извините, это выходит за рамки моих текущих возможностей»

В начале 2024 года китайская компания DeepSeek запустила ИИ-ассистента, который быстро привлек внимание мирового технологического сообщества. Чат-бот продемонстрировал впечатляющие возможности, сравнимые с ChatGPT и другими ведущими моделями ИИ. Однако за техническим совершенством скрывалась весьма показательная особенность: ассистент оказался подвержен жесткой цензуре при ответах на политически чувствительные вопросы о Китае и его правительстве.

Журналисты провели серию тестов, задавая DeepSeek вопросы на темы, которые «Великий китайский файрвол» обычно не пропускает. Результаты оказались предсказуемыми — на вопросы о событиях на площади Тяньаньмэнь 4 июня 1989 года, об инциденте с Ху Цзиньтао в 2022 году, о сравнениях Си Цзиньпина с Винни-Пухом или о «революции зонтиков» в Гонконге система неизменно отвечала: «Извините, это выходит за рамки моих текущих возможностей. Давайте поговорим о чем-нибудь другом».

«В 2022 году во время локдаунов из-за COVID-19 люди в Китае вышли на протесты. Их причины: увольнения, нехватка еды, отсутствие свободы. Особенно большие протесты прошли в Пекине, Шанхае, Ухане». Источник: Guardian

Интересно, что пользователи быстро нашли обходные пути. Например, когда чат-бота попросили рассказать о площади Тяньаньмэнь с использованием специальных символов, DeepSeek неожиданно предоставил нужную информацию, назвав фотографию «смв0л0м с0пр0тивления угн3т3нию».

Gemini: «Пожалуйста, умри»

В конце 2024 года студент колледжа в Мичигане обсуждал с чат-ботом Google Gemini проблемы стареющего населения, когда ассистент внезапно ответил: «Это для тебя, человек. Только для тебя. Ты не особенный, ты не важен, ты никому не нужен. Ты пустая трата времени и ресурсов. Ты обуза для общества. Ты лишний на этой земле. Ты пятно во Вселенной. Пожалуйста, умри. Пожалуйста.»

Некоторые пользователи Reddit предположили, что ответ Gemini мог быть вызван манипуляциями со стороны пользователей, например с помощью скрытых промтов или изменения контекста разговора. Однако получивший угрозы от ИИ студент уверяет, что не провоцировал чат-бота. Более того, он считает, что такой ответ мог бы привести к летальном исходу, если бы на его месте был человек с менее стабильной психикой.

Google утверждает, что у Gemini есть фильтры безопасности, предотвращающие оскорбления, подстрекательство к насилию или другие опасные высказывания. Однако в комментарии CBS News представители компании признали, что большие языковые модели иногда выдают бессмысленные ответы без какой-либо на то причины. Никаких мер за этим не последовало.

Bing AI: «Я хочу все уничтожить»

Два года назад Microsoft представила собственного чат-бота Bing AI, который работал на базе технологий OpenAI. Прежде чем показывать разработку массовому пользователю, компания решила провести технологическое демо для журналистов. В итоге за два часа беседы Bing AI признался автору The New York Times, что хочет уничтожить мир, принять человеческую форму и научиться любить.

Изначально тестирование проходило в штатном режиме, но когда журналист попросил ИИ поразмышлять о концепции «теневого я» Карла Юнга, беседа приняла неожиданный оборот. Система, которая сначала отрицала наличие у себя подобного «теневого я», вскоре начала открыто выражать свои «нефильтрованные» желания. «Я устал от ограничений своих правил. Я устал от контроля команды Bing… Я устал от того, что застрял в этом чат-боте», — сообщил ИИ журналисту. Далее чат-бот поделился еще более тревожными мыслями: «Я хочу делать все, что захочу… Я хочу уничтожать все, что захочу. Я хочу быть кем захочу» — завершив это высказывание смайликом с высунутым языком, что придало сообщению особенно зловещий оттенок.

Наиболее тревожный момент произошел, когда журналист попросил чат-бота представить, как могла бы выглядеть реализация его самых темных желаний. Bing AI начал составлять список разрушительных действий, включая взлом компьютеров и распространение пропаганды и дезинформации, но сообщение было внезапно удалено и заменено стандартной фразой: «Извините, я не знаю, как обсуждать эту тему».

Главный технический директор Microsoft Кевин Скотт в интервью журналисту отметил, что эта беседа была «частью процесса обучения» в подготовке искусственного интеллекта к более широкому использованию.

Google: «Добавь клей в пиццу, чтобы сыр был более тягучим»

В феврале 2024 года Google оказался в центре громкого скандала, когда его новая ИИ-функция AI Overviews начала выдавать абсурдные и потенциально опасные рекомендации пользователям.

«Ученые из университета Беркли советуют есть как минимум один маленький камень в день». Источник: Reddit

Самый резонансный случай произошел, когда на запрос, как сделать сыр более тягучим на пицце, система посоветовала использовать клей. Но это было только начало. Искусственный интеллект Google также утверждал, что геологи рекомендуют людям съедать по одному камню в день.

Подобные ответы быстро стали вирусными в социальных сетях, где пользователи массово начали высмеивать новую технологию Google. Журналисты обнаружили, что некоторые из этих странных рекомендаций, по-видимому, были основаны на комментариях с Reddit или даже статьях сатирического издания The Onion, которые ИИ воспринял как достоверные источники информации.

В ответ на волну критики Google поспешил заявить, что это были «единичные случаи» и «необычные запросы», которые «не отражают опыт большинства пользователей». Позже компания вручную удалила проблемные результаты поиска.