ИИ поедает сам себя: почему технология рискует деградировать от собственного успеха

Разобраться • 16 июня 2025

ИИ поедает сам себя: почему технология рискует деградировать от собственного успеха

ИИ поедает сам себя: почему технология рискует деградировать от собственного успеха

Текст: Григорий Щеглов

Фото: Unsplash


Представьте, что вы читаете статью, написанную роботом, который учился на статьях других роботов, которые, в свою очередь, учились на текстах третьих роботов. Звучит как сценарий фантастического фильма? К сожалению, это уже реальность. По данным исследования Amazon Web Services, 57% контента в интернете уже генерируется искусственным интеллектом, и это число стремительно растет.

Представьте, что вы читаете статью, написанную роботом, который учился на статьях других роботов, которые, в свою очередь, учились на текстах третьих роботов. Звучит как сценарий фантастического фильма? К сожалению, это уже реальность. По данным исследования Amazon Web Services, 57% контента в интернете уже генерируется искусственным интеллектом, и это число стремительно растет.

Мы стоим на пороге парадокса: технология, которая должна была расширить границы человеческих возможностей, может начать поедать саму себя. Если ничего не предпринять, ИИ рискует войти в порочный круг деградации, где каждое новое поколение моделей будет хуже предыдущего.

«Инк» поговорил с экспертами, чтобы выяснить, насколько близок обещанный «ИИ-апокалипсис» и что еще можно сделать, чтобы его избежать.

Как ИИ учился быть умным

Чтобы понять масштаб проблемы, важно разобраться в том, как работает обучение современных ИИ-систем. Языковые модели, вроде ChatGPT или Claude, обучаются на огромных массивах текстов — книгах, статьях, форумах, блогах, научных работах. Этот процесс называется предварительным обучением (pre-training), и именно здесь модель «понимает» язык, усваивает факты и учится рассуждать.

Ключ к успеху ИИ всегда был в разнообразии и качестве данных. Человеческие тексты содержат нестандартные идеи, редкие контексты, личный опыт и культурные нюансы. Именно это делает ИИ полезным.

Как оказалось, компании, вроде OpenAI и Anthropic (Claude), готовы тратить огромные ресурсы на поиск датабаз с настоящими человеческими интеракциями. Так, например, в 2024 году сразу несколько ИИ-гигантов, включая Google, заключили соглашения с Reddit, чтобы тренировать свои модели на сообщениях пользователей форума.

Но что происходит, когда в обучающих данных начинает доминировать сгенерированный контент?

Коллапс модели

Термин «коллапс модели» (model collapse) описывает ситуацию, когда ИИ-система обучается преимущественно на информации, созданной другими ИИ-системами. Это создает опасную петлю обратной связи: каждое новое поколение моделей наследует и усиливает предвзятости и ошибки предыдущих.

Механизм деградации работает следующим образом:

— первое поколение ИИ обучается на человеческих данных и работает относительно хорошо;

— второе поколение обучается на смеси оригинальных текстов и контента первого поколения;

— третье поколение получает больше синтетических данных, чем человеческих;

— с каждым циклом модели становятся менее разнообразными, более шаблонными и склонными к галлюцинациям.

Исследователи из Кембриджа и Оксфорда уже зафиксировали первые признаки этого процесса. В проведенных ими экспериментах модели, обученные на данных предыдущих поколений ИИ, показывали снижение качества ответов, увеличение количества повторов и потерю способности генерировать редкие, но важные концепции.

Ученые отмечают, что тонкая настройка (fine-tuning) не способна полностью устранить этот эффект. Для предотвращения коллапса необходимо контролировать доступ к исходным, не сгенерированным ИИ данным и использовать качественные, разнообразные обучающие выборки.

Больше, чем технические проблемы

Деградация ИИ от собственного контента создает риски, выходящие далеко за рамки технических неудобств.

Когда нейросети обучаются на синтетических данных, начинается утечка смысла. Первое, что уходит, — это редкие знания. ИИ устроен так, что запоминает наиболее частотные паттерны. А значит, уникальные факты, нестандартные идеи и малораспространенные точки зрения постепенно исчезают из его памяти просто потому, что они теряются в общем шуме.

Ульяна Громова

Ульяна Громова

CEO GromPR

«Мы уже видим, как качество информации становится хуже. Подтягиваются старые данные, ИИ часто галлюцинирует. Для того, чтобы оно выросло, требуется общее повышение ИИ-грамотности у пользователей. К сожалению, сейчас очень мало курсов и экспертов, которые занимаются этой работой».

Параллельно с этим усиливаются и искажения. Если в оригинальных данных уже были перекосы, например, недостаточная репрезентация каких-то культур, языков или социальных групп, то при повторной генерации эти ошибки не просто сохраняются, а многократно усиливаются. Каждый следующий ИИ-ответ словно смотрит в кривое зеркало, отражающее и преувеличивающее предвзятости.

Проблемы накапливаются и снаружи моделей. Поисковые системы, вроде Google или Bing, уже захлебываются в лавине шаблонного ИИ-контента. Как пользователям, так и самим машинам все сложнее отличить живую мысль от сгенерированной. В будущем это может сделать поиск достоверной информации практически невозможным.

Илья Смирнов

Илья Смирнов

руководитель направления машинного обучения и искусственного интеллекта ГК «Юзтех»

«LLM уже сегодня способны правдоподобно имитировать человеческий стиль письма. В большинстве случаев выявление фейкового текста возможно только при несоответствиях в числовых данных. Если в документе присутствуют статистические или табличные данные, у которых нет логических связей и зависимостей, — это ИИ».

Ну и что теперь делать?

К счастью, избежать деградации ИИ все еще возможно. Исследователи выделяют несколько методов борьбы с коллапсом модели.

Прежде всего — фильтрация. Разработчики стремятся научить алгоритмы отличать живой, человеческий текст от сгенерированного. Для этого используются разные подходы: кто-то внедряет «водяные знаки» в ИИ-контент, кто-то полагается на стилистический анализ. Цель — не допустить, чтобы модель снова и снова «ела» собственный продукт.

Параллельно идет работа над улучшением самих обучающих данных. Компании все чаще отказываются от беспорядочного сбора «всего, что есть в интернете» и переходят к аккуратной курации. Вместо сомнительных форумов — научные журналы, проверенные книги, авторитетные медиа.

Совершенствуется и сам процесс обучения. Современные методы, вроде RLHF 2.0, позволяют моделям развиваться не только на статических текстах, но и благодаря постоянной обратной связи от людей. Это помогает ИИ лучше улавливать смыслы, нюансы, предпочтения.

Илья Смирнов

Илья Смирнов

руководитель направления машинного обучения и искусственного интеллекта ГК «Юзтех»

«В условиях огромного количества сгенерированного текста, будущее за моделями определения ИИ-текстов. У каждой модели искусственного интеллекта есть уровень точности. В LLM ключевым моментом будет достижение, когда система будет одинаково классифицировать тексты, написанные человеком и ИИ».

Наконец, важнейшая часть — поддержка тех, кто создает оригинальный контент. Все больше компаний осознают, чтобы нейросети оставались полезными, нужно больше, а не меньше живого, человеческого творчества. Отсюда — гранты, стипендии, инициативы в поддержку писателей, журналистов, художников.

Интересно, что в будущем часть обучающих данных все-таки может быть синтетической, но только при одном условии — строгий отбор, верификация и контроль со стороны человека. Парадокс, но именно так ИИ сможет избежать собственной ловушки.

Алексей Евдокимов

ИИ-эксперт и автор Telegram-канала «Евдокимов как обычно»

«Я считаю, что паника вокруг ситуации с коллапсом модели преувеличена. Пока люди бегают вокруг этой проблемы, крупные компании просто переходят на другие рельсы. Например, Antropic запустили так называемый Constitutional AI, который позволяет моделям самоулучшаться и развиваться без участия человека. Они сами себя поправляют, размечают данные — это совершенно новый подход к обучению LLM.

Сооснователь OpenAI Илья Суцкевер и вовсе считает, что текущая эпоха ИИ с предварительным обучением и языковыми моделями уже подходит к концу, и в ближайшие несколько лет появятся другие архитектуры с принципиально новыми подходами».