Исследование сотрудников Университета Иллинойса в Урбане-Шампейне (США) показало, что обновление только отдельных компонентов искусственных нейросетей вместо полного их переобучения позволяет значительно сократить ресурсы и время без потери качества работы моделей. Так, доработав лишь часть слоев или параметров, команды добиваются почти той же производительности, что и при полном переобучении, при этом экономят вычислительные мощности и деньги.
Freepik
Ключевой подход — выделение и доучивание только тех весов, которые действительно влияют на результат: «головы» (attention heads), фильтры, слои, отвечающие за наиболее сложные функции. Это снижает нагрузку на GPU-кластеры и уменьшает энергопотребление, что важно для компаний, работающих с ограниченным бюджетом или в условиях дорогого оборудования.
В мире уже есть примеры: DistilBERT — версия BERT, уменьшенная в размерах и ускоренная при минимальной потере в качестве; методы pruning (отсечение незначимых параметров) и переиспользование частей модели (model reuse) показывают экономию по времени и вычислительным ресурсам.
Для России эта тенденция может быть особенно интересна. Инфраструктура дата-центров дорогая, электроэнергия и оборудование — значительные статьи затрат для организаций. Поэтому внедрение подходов, где доучиваются не все параметры, а только нужные, может снизить порог вхождения для стартапов и научных лабораторий, ускорить коммерциализацию ИИ-решений и сделать проекты более устойчивыми.
Аналоги за рубежом уже используют эту практику. Например, компании и исследовательские группы в США и Европе применяют post-training pruning — обрезку ненужных частей после основного обучения — и distillation моделей, чтобы уменьшить их размер. Это позволяет запускать ИИ-сервисы даже на слабом железе и экономить на облачных вычислениях.