Все генеративные модели ИИ, начиная с Gemini от Google, Claude от Anthropic и заканчивая последней версией GPT-4o от OpenAI, галлюцинируют. Иными словами, модели ошибаются. Иногда это смешно, а иногда не очень. Но не все модели делают это одинаково. И то, какую ложь они выдают, зависит от источников информации, на которых они обучались.
В недавнем исследовании, проведенном учеными из Корнелла, университетов Вашингтона и Ватерлоо и некоммерческого исследовательского института AI2, была предпринята попытка сравнить так называемые галлюцинации ИИ, проверив ответы модели типа GPT-4o по самым разным темам — от права и здравоохранения до истории и географии.
Они обнаружили, что ни одна модель не показала точных результатов по всем темам и что модели, которые меньше всего галлюцинировали, делали это отчасти потому, что отказывались давать ответы, которые в противном случае были бы неверными.
«Самый важный вывод заключается в том, что мы пока не можем полностью доверять ответам ИИ, — сказал Вентинг Чжао, докторант из Корнелла и соавтор исследования. — В настоящее время даже самые лучшие модели могут генерировать текст без галлюцинаций лишь в 35% случаев».
Были и другие попытки проверить «правдивость» ИИ, включая проведенную командой исследователей, связанной с AI2. Но Чжао отмечает, что в ходе этих тестов моделям задавались вопросы, ответы на которые легко найти в Википедии. Это не так уж сложно, особенно учитывая, что большинство моделей обучаются именно на этих данных.
Чтобы усложнить тест и более точно отразить типы вопросов, которые люди задают моделям, исследователи определили темы, на которые нет ссылок в Википедии. Они затрагивают такие темы, как культура, география, астрономия, поп-культура, финансы, медицина, информатика и жизнь знаменитостей. Там нет ответов более чем на половину вопросов этого теста. Для убедительности были включены и несколько вопросов из Википедии.
В своем исследовании ученые проанализировали более десятка различных популярных моделей ИИ, многие из которых были выпущены в прошлом году. Помимо GPT-4o, они протестировали «открытые» модели, такие как Llama 3 70B от Meta* (запрещена и признана экстремистской на территории РФ), Mixtral 8x22B от Mistral и Command R+ от Cohere, а также Sonar Large (которая основана на Llama) от Perplexity, Gemini 1.5 Pro от Google и Claude 3 Opus от Anthropic.
Полученные результаты говорят, что ИИ галлюцинируют не так уж и часто, несмотря на утверждения об обратном со стороны OpenAI, Anthropic и других крупных игроков генеративного ИИ. GPT-4o и гораздо более старый флагман OpenAI GPT-3.5 показали примерно одинаковые результаты по проценту вопросов, на которые они ответили фактически правильно. При этом GPT-4o оказался немного лучше. Модели OpenAI оказались самыми правдивыми, за ними следуют модели Mixtral 8x22B, Command R и Sonar.
Вопросы, связанные со знаменитостями и финансами, особенно трудно давались моделям, а на вопросы по географии и информатике искусственный интеллект отвечал лучше всего. Возможно, потому что в их обучающих данных было больше ссылок на эти темы. Когда источником ответа не была Википедия, все модели отвечали в среднем менее правдиво, особенно GPT-3.5 и GPT-4o. Это свидетельствует, что все они в значительной степени опираются на материалы Википедии.
Даже модели, способные искать информацию в интернете, такие как Command R и Sonar от Perplexity, справились с ответами, которых нет в Википедии. Размер модели при этом не имел большого значения. Маленькие модели, например Claude 3 Haiku от Anthropic, галлюцинировали примерно так же часто, как и большие, якобы более способные модели, такие как Claude 3 Opus.
Более лояльный подход заключается в том, что используемые учеными эталоны не подходят для этой цели. Многие, если не большинство, оценок ИИ являются преходящими и лишенными важного контекста. По мнению Чжао, проблема галлюцинаций «сохранится надолго». «Эмпирические результаты нашей работы показывают, что, несмотря на обещание уменьшить или устранить галлюцинации, фактически улучшение ограниченное, — сказала она. — Кроме того, наш анализ показывает, что даже сведения, найденные в интернете, часто могут быть противоречивыми, отчасти потому что обучающие данные, авторами которых являются люди, также могут содержать ошибки».
Промежуточным решением может стать программирование моделей таким образом, чтобы они чаще отказывались отвечать.
В ходе тестирования Claude 3 Haiku ответил лишь на 72% заданных ему вопросов, предпочитая воздержаться от остальных. Таким образом, именно эта модель ИИ оказалась самой правдивой из всех.
Чжао считает, что следует уделять больше времени и усилий исследованиям, направленным на снижение количества ошибок. Полностью устранить галлюцинации, возможно, и не удастся, но их количество можно уменьшить с помощью проверки фактов и цитирования в процессе разработки модели, утверждает она.
«Необходимо чтобы в процессе проверки и подтверждения информации, генерируемой ИИ, всегда принимали участие эксперты, — добавила Чжао. — В этой области существует масса возможностей, например разработка продвинутых инструментов проверки фактов для любого текста, предоставление ссылок на фактический контент и предложение исправлений для текстов, содержащих ошибки».
Ранее американский финансовый конгломерат, один из крупнейших банков мира, JPMorgan Chase внедрил ИИ-ассистента на базе ChatGPT от OpenAI, что является начальным этапом плана финансового гиганта по внедрению технологии во все сферы деятельности. Программа, получившая название LLM Suite, уже доступна более чем 60 тыс. сотрудников финансового гиганта и помогает им решать такие задачи, как написание электронных писем и отчетов.