Разобраться • 16 июня 2025
ИИ поедает сам себя: почему технология рискует деградировать от собственного успеха
ИИ поедает сам себя: почему технология рискует деградировать от собственного успеха
Текст: Григорий Щеглов
Фото: Unsplash
Представьте, что вы читаете статью, написанную роботом, который учился на статьях других роботов, которые, в свою очередь, учились на текстах третьих роботов. Звучит как сценарий фантастического фильма? К сожалению, это уже реальность. По данным исследования Amazon Web Services, 57% контента в интернете уже генерируется искусственным интеллектом, и это число стремительно растет.
Представьте, что вы читаете статью, написанную роботом, который учился на статьях других роботов, которые, в свою очередь, учились на текстах третьих роботов. Звучит как сценарий фантастического фильма? К сожалению, это уже реальность. По данным исследования Amazon Web Services, 57% контента в интернете уже генерируется искусственным интеллектом, и это число стремительно растет.
Мы стоим на пороге парадокса: технология, которая должна была расширить границы человеческих возможностей, может начать поедать саму себя. Если ничего не предпринять, ИИ рискует войти в порочный круг деградации, где каждое новое поколение моделей будет хуже предыдущего.
«Инк» поговорил с экспертами, чтобы выяснить, насколько близок обещанный «ИИ-апокалипсис» и что еще можно сделать, чтобы его избежать.
Чтобы понять масштаб проблемы, важно разобраться в том, как работает обучение современных ИИ-систем. Языковые модели, вроде ChatGPT или Claude, обучаются на огромных массивах текстов — книгах, статьях, форумах, блогах, научных работах. Этот процесс называется предварительным обучением (pre-training), и именно здесь модель «понимает» язык, усваивает факты и учится рассуждать.
Ключ к успеху ИИ всегда был в разнообразии и качестве данных. Человеческие тексты содержат нестандартные идеи, редкие контексты, личный опыт и культурные нюансы. Именно это делает ИИ полезным.
Как оказалось, компании, вроде OpenAI и Anthropic (Claude), готовы тратить огромные ресурсы на поиск датабаз с настоящими человеческими интеракциями. Так, например, в 2024 году сразу несколько ИИ-гигантов, включая Google, заключили соглашения с Reddit, чтобы тренировать свои модели на сообщениях пользователей форума.
Но что происходит, когда в обучающих данных начинает доминировать сгенерированный контент?
Термин «коллапс модели» (model collapse) описывает ситуацию, когда ИИ-система обучается преимущественно на информации, созданной другими ИИ-системами. Это создает опасную петлю обратной связи: каждое новое поколение моделей наследует и усиливает предвзятости и ошибки предыдущих.
Механизм деградации работает следующим образом:
— первое поколение ИИ обучается на человеческих данных и работает относительно хорошо;
— второе поколение обучается на смеси оригинальных текстов и контента первого поколения;
— третье поколение получает больше синтетических данных, чем человеческих;
— с каждым циклом модели становятся менее разнообразными, более шаблонными и склонными к галлюцинациям.
Исследователи из Кембриджа и Оксфорда уже зафиксировали первые признаки этого процесса. В проведенных ими экспериментах модели, обученные на данных предыдущих поколений ИИ, показывали снижение качества ответов, увеличение количества повторов и потерю способности генерировать редкие, но важные концепции.
Ученые отмечают, что тонкая настройка (fine-tuning) не способна полностью устранить этот эффект. Для предотвращения коллапса необходимо контролировать доступ к исходным, не сгенерированным ИИ данным и использовать качественные, разнообразные обучающие выборки.
Деградация ИИ от собственного контента создает риски, выходящие далеко за рамки технических неудобств.
Когда нейросети обучаются на синтетических данных, начинается утечка смысла. Первое, что уходит, — это редкие знания. ИИ устроен так, что запоминает наиболее частотные паттерны. А значит, уникальные факты, нестандартные идеи и малораспространенные точки зрения постепенно исчезают из его памяти просто потому, что они теряются в общем шуме.
Ульяна Громова
CEO GromPR
«Мы уже видим, как качество информации становится хуже. Подтягиваются старые данные, ИИ часто галлюцинирует. Для того, чтобы оно выросло, требуется общее повышение ИИ-грамотности у пользователей. К сожалению, сейчас очень мало курсов и экспертов, которые занимаются этой работой».
Параллельно с этим усиливаются и искажения. Если в оригинальных данных уже были перекосы, например, недостаточная репрезентация каких-то культур, языков или социальных групп, то при повторной генерации эти ошибки не просто сохраняются, а многократно усиливаются. Каждый следующий ИИ-ответ словно смотрит в кривое зеркало, отражающее и преувеличивающее предвзятости.
Проблемы накапливаются и снаружи моделей. Поисковые системы, вроде Google или Bing, уже захлебываются в лавине шаблонного ИИ-контента. Как пользователям, так и самим машинам все сложнее отличить живую мысль от сгенерированной. В будущем это может сделать поиск достоверной информации практически невозможным.
Илья Смирнов
руководитель направления машинного обучения и искусственного интеллекта ГК «Юзтех»
«LLM уже сегодня способны правдоподобно имитировать человеческий стиль письма. В большинстве случаев выявление фейкового текста возможно только при несоответствиях в числовых данных. Если в документе присутствуют статистические или табличные данные, у которых нет логических связей и зависимостей, — это ИИ».
К счастью, избежать деградации ИИ все еще возможно. Исследователи выделяют несколько методов борьбы с коллапсом модели.
Прежде всего — фильтрация. Разработчики стремятся научить алгоритмы отличать живой, человеческий текст от сгенерированного. Для этого используются разные подходы: кто-то внедряет «водяные знаки» в ИИ-контент, кто-то полагается на стилистический анализ. Цель — не допустить, чтобы модель снова и снова «ела» собственный продукт.
Параллельно идет работа над улучшением самих обучающих данных. Компании все чаще отказываются от беспорядочного сбора «всего, что есть в интернете» и переходят к аккуратной курации. Вместо сомнительных форумов — научные журналы, проверенные книги, авторитетные медиа.
Совершенствуется и сам процесс обучения. Современные методы, вроде RLHF 2.0, позволяют моделям развиваться не только на статических текстах, но и благодаря постоянной обратной связи от людей. Это помогает ИИ лучше улавливать смыслы, нюансы, предпочтения.
Илья Смирнов
руководитель направления машинного обучения и искусственного интеллекта ГК «Юзтех»
«В условиях огромного количества сгенерированного текста, будущее за моделями определения ИИ-текстов. У каждой модели искусственного интеллекта есть уровень точности. В LLM ключевым моментом будет достижение, когда система будет одинаково классифицировать тексты, написанные человеком и ИИ».
Наконец, важнейшая часть — поддержка тех, кто создает оригинальный контент. Все больше компаний осознают, чтобы нейросети оставались полезными, нужно больше, а не меньше живого, человеческого творчества. Отсюда — гранты, стипендии, инициативы в поддержку писателей, журналистов, художников.
Интересно, что в будущем часть обучающих данных все-таки может быть синтетической, но только при одном условии — строгий отбор, верификация и контроль со стороны человека. Парадокс, но именно так ИИ сможет избежать собственной ловушки.
Алексей Евдокимов
ИИ-эксперт и автор Telegram-канала «Евдокимов как обычно»
«Я считаю, что паника вокруг ситуации с коллапсом модели преувеличена. Пока люди бегают вокруг этой проблемы, крупные компании просто переходят на другие рельсы. Например, Antropic запустили так называемый Constitutional AI, который позволяет моделям самоулучшаться и развиваться без участия человека. Они сами себя поправляют, размечают данные — это совершенно новый подход к обучению LLM.
Сооснователь OpenAI Илья Суцкевер и вовсе считает, что текущая эпоха ИИ с предварительным обучением и языковыми моделями уже подходит к концу, и в ближайшие несколько лет появятся другие архитектуры с принципиально новыми подходами».