Новости

Сначала предложения, потом смысл слов: ученые выяснили, как ИИ «учится читать»

Современные языковые модели, такие как ChatGPT и Gemini, поражают своей способностью вести диалог. Однако внутренние процессы их обучения оставались не до конца понятными. Основная проблема заключалась в непонимании, как именно нейросеть переходит от простого анализа структуры предложения к глубокому пониманию смысла. Новое исследование дало ответ на этот вопрос.

Unsplash/CC0 Public Domain

Ученые выяснили, что обучение ИИ проходит в две четкие фазы, подобно тому, как ребенок учится читать. На начальном этапе, при обработке небольших обемов данных, нейросеть полагается исключительно на позиционную информацию. Она определяет отношения между словами по их местоположению в предложении — например, подлежащее обычно стоит перед сказуемым. Это первая и самая простая стратегия для анализа текста.

Ключевое открытие состоит в том, что при достижении определенного критического порога данных происходит резкий скачок. Система внезапно меняет свою стратегию и переключается на семантическое обучение. Вместо анализа позиции слов, ИИ начинает полагаться на их значение. Это изменение ученые назвали «фазовым переходом», по аналогии с физическими явлениями, например, превращением воды в пар.

Исследование проводилось на упрощенной модели механизма самовнимания, который является ядром архитектуры «трансформер», используемой во всех современных языковых моделях. По словам ведущего автора Хьюго Цуи из Гарвардского университета, открытие этого резкого перехода было неожиданным. Оно показывает, что стратегия сети не смешивается, а кардинально меняется: до порога — только позиция, после — только смысл.

Понимание условий, при которых происходит этот «фазовый переход», может сделать обучение нейросетей более эффективным. Компании смогут оптимизировать количество данных для тренировки моделей, экономя огромные вычислительные ресурсы и время. В конечном счете, это приведет к созданию более мощных, безопасных и экономически выгодных ИИ-систем.