Новое исследование показало, что добавление контролируемого объема «токсичного» контента может улучшить контроль над поведением ИИ-моделей. Этот подход противоречит общепринятой практике, когда разработчики стараются полностью исключать вредные данные перед обучением. Проблема в том, что полная фильтрация не всегда эффективна для последующей «детоксикации» модели.
Исследователи провели эксперимент с небольшой языковой моделью Olmo-1B. Они обучали ее на разных смесях данных с анонимного имиджборда 4chan, известного своим оскорбительным контентом. В качестве контрольной группы использовался «чистый» набор данных C4, основанный на отфильтрованных текстах из интернета. Цель состояла в том, чтобы понять, как разный состав данных влияет на внутренние процессы модели.
Выяснилось, что в моделях, обученных только на чистых данных, токсичные концепции были размыты и смешаны с другими идеями. Это явление, известное как «запутанность», усложняет их последующее удаление. Однако при добавлении данных с 4chan токсичные представления в модели становились более четкими и обособленными. Такая ясная внутренняя структура значительно упрощает управление поведением ИИ.
Оптимальным оказалось соотношение, при котором около 10% обучающих данных были взяты с 4chan. Модель, обученная на такой смеси, демонстрировала самый низкий уровень токсичности на выходе, сохраняя при этом высокие показатели в тестах на генерацию и понимание текста. Модели, в обучающих наборах которых было больше 10% оскорбительного контента становились более токсичными, и их было труднее корректировать.
Этот подход может изменить стратегии разработки ИИ. Вместо дорогостоящей тотальной очистки данных компании могут использовать контролируемое добавление «плохих» примеров. Это не только потенциально снижает затраты, но и создает более надежные и управляемые модели. Такие ИИ более устойчивы к попыткам взлома и провокациям, что повышает их безопасность и коммерческую ценность.