Новости

Создан метод, позволяющий понять, о чем «думают» нейросети и направлять их мысли

Исследователи из лаборатории T-Bank AI Research разработали метод, который позволяет не просто наблюдать за смысловыми процессами внутри языковых моделей, но и точечно управлять ими. Это открывает возможность изменять поведение ИИ без дорогостоящего дообучения. Результаты были представлены на престижной международной конференции по машинному обучению ICML.

Growtika

Основная проблема современных нейросетей — их непрозрачность. Разработчики часто не понимают, как именно «черный ящик» приходит к тому или иному выводу. Предыдущие методы позволяли лишь фиксировать появление определенных концептов или «мыслей» внутри модели, но не отслеживать их эволюцию и источники. Это делало управление поведением ИИ сложным и непредсказуемым.

Новый подход, основанный на развитии метода SAE Match, вводит концепцию «графа потока признаков». Это своего рода карта, которая детально показывает, как смысловые элементы появляются, трансформируются и исчезают на разных слоях и модулях нейросети. Метод позволяет понять, пришла ли идея из контекста запроса или из «внутренних знаний» самой модели.

Это открытие превращает интерпретируемость из инструмента наблюдения в механизм активного контроля. Эксперименты показали, что, усиливая или подавляя определенные признаки на нескольких уровнях модели, можно точно управлять стилем, темой и тональностью генерируемого текста. Такой многоуровневый контроль оказался гораздо эффективнее попыток повлиять на один слой.

Новая методика позволяет быстро и точечно корректировать поведение ИИ, например, для фильтрации нежелательного контента в чат-ботах, не прибегая к полному переобучению модели. Это делает создание безопасных и этичных ИИ-решений более быстрым и доступным, особенно для команд с ограниченными вычислительными ресурсами.