Малые языковые модели: почему размер больше не имеет значения

Роботы • 2 июля 2025

Малые языковые модели: почему размер больше не имеет значения

Малые языковые модели: почему размер больше не имеет значения

Текст: Василий Макаров

Фото: Unsplash


Пока гиганты вроде OpenAI тратят миллиарды на создание все более мощных ИИ, умные стартапы делают ставку на компактные решения — и часто выигрывают.

Пока гиганты вроде OpenAI тратят миллиарды на создание все более мощных ИИ, умные стартапы делают ставку на компактные решения — и часто выигрывают.

Представьте: вы руководитель IT-отдела крупной компании. Вам нужно внедрить ИИ-помощника для сотрудников, но бюджет ограничен, а корпоративные данные нельзя передавать третьим лицам. GPT-4 не подходит — дорого, небезопасно, а для кастомизации под конкретные задачи нужен отдельный (весьма недешевый) специалист. Что делать?

Еще год назад ответ был очевиден: терпеть и копить на «большой» ИИ либо отказаться от идеи цифрового помощника. Однако сегодня все изменилось: малые языковые модели (SLM, от англ. Small Language Models) научились решать те же задачи, что и их гигантские собратья, но быстрее, дешевле и безопаснее.

Диалог с нейросетью

Почему машина так хорошо понимает человека, хотя сами люди порой не могут найти общий язык? Все очень просто. Языковая модель — это программа, которая научилась распознавать человеческую речь и генерировать ответы не машинным кодом, а связным текстом. Представьте сверхумную автозамену в смартфоне, которая не просто исправляет ошибки, а может написать письмо, перевести текст или даже написать код.

Модель не «понимает» человека, а лишь угадывает его желания. В базе даже малых моделей миллионы текстов, анализ которых позволяет алгоритму предсказывать, какое слово должно идти следующим в текстовом блоке.

Количество параметров модели можно сравнить со словарным запасом человека. Например, GPT-4 содержит около 1,7 трлн параметров — представьте библиотеку размером с небольшой город. Малые модели работают с 1–10 млрд параметров — это, скорее, домашняя библиотека очень начитанного человека.

Большие vs маленькие: кто кого

Если разница между языковыми моделями столь велика, возникает закономерный вопрос, зачем нужны малые, когда большие общедоступны. Чтобы ответить на него, давайте сравним ключевые показатели двух популярных алгоритмов.

GPT-4 (большая модель):

  • 1,7 трлн параметров;
  • стоимость обучения — >$100 млн;
  • время ответа — 2–5 сек.;
  • стоимость запроса — $0,03–0,06.

Llama 3.2 3B (малая модель):

  • 3 млрд параметров;
  • стоимость обучения — $50–100 тыс.;
  • время ответа — 0,1–10,5 сек.;
  • стоимость запроса — $0,001–0,005.

На первый взгляд большие модели выигрывают по качеству ответов. Но дьявол кроется в деталях.

«Для очень общих задач LLM работает нормально, но как только вам нужен языковой ИИ, который будет по-настоящему полезен, вы должны использовать SLM», — объясняет Доминик Томичевич, сооснователь Memgraph. Он отмечает: «Это принцип Парето — 80% эффективности за 20% усилий. Если у вас есть конкретная проблема и хорошие данные для обучения модели, где важна приватность и эффективность важнее точности, тогда вам нужна SLM».

Почему мы выбираем SLM

Скорость

Пользователи не готовы ждать. Если ИИ-помощник в мобильном приложении думает пять секунд, это катастрофа для пользовательского опыта. Малые модели отвечают мгновенно.

Экономия

«Модели нужно сделать экономически эффективными для масштабирования. Большие модели с большим количеством параметров становятся слишком дорогими для работы», — констатируют эксперты IBM. «Эффективные SLM предлагают компаниям ИИ-модели, которые содержат только данные, релевантные для конкретных задач, экономя затраты и энергию».

Российский сервис «Звук» (ранее «СберЗвук») демонстрирует это на практике, используя собственную малую модель для генерации аудиокниг. Стоимость обработки одного часа аудио составляет $2–5 против $50–100 при использовании больших моделей через API.

Приватность

«Малые модели достаточно легкие, чтобы эффективно работать как в публичных, так и в частных облачных средах, при этом обеспечивая высококачественные результаты для специфичных задач», — отмечают аналитики Red Hat. Это критично для банков, медицинских учреждений и госструктур. «Организациям, работающим в строго регулируемых отраслях, таких как финансы и здравоохранение, необходимо учитывать соблюдение требований, конфиденциальность данных и безопасность», — подчеркивают эксперты.

Специализация > универсальность

В Red Hat уверены, что «SLM приоритизируют то, что действительно важно для предприятий. Они позволяют организациям интегрировать ИИ с приватными, защищенными датасетами, снижая воздействие рисков третьих сторон». По словам Криса Маля, CEO платформы управления корпоративными знаниями Pryon, «ресурсная эффективность SLM позволяет им работать на стандартном оборудовании, обеспечивая специализированный интеллект именно там, где это необходимо».

Где уже работают малые модели

Мобильные приложения

Apple Intelligence в iPhone 15 Pro использует модель с 3 млрд параметров. Она работает прямо на устройстве — никакого интернета для базовых задач не нужно.

Промышленность

PA Consulting создала малую языковую модель для британского ядерного объекта Sellafield для отслеживания бюрократических процессов. «Мы создали модель, чтобы помочь им сократить административную нагрузку. Модель определяет, какие изменения релевантны и какие документы затронуты, давая инженерам что-то для оценки», — рассказывает Джанлука Барлетта, эксперт по данным и аналитике PA Consulting.

EdTech

Образовательные платформы также экспериментируют с малыми моделями для персонализированных объяснений, позволяя учащимся за секунды получать ответы на своем уровне понимания.

Khan Academy совместно с Microsoft разрабатывает специализированную версию малой модели Phi-3 для математического обучения. «Мы сотрудничаем с Khan Academy, чтобы исследовать возможности улучшения ИИ-инструментов для математического обучения доступным, масштабируемым и адаптируемым способом с новой версией Phi-3», — сообщает Microsoft. Модель может генерировать задачи для конкретных классов и математических тем, помогать студентам учиться через направляемые объяснения.

Почему малые модели «поумнели»

Сегодня маленькие языковые модели уже не выглядят как младшие братья больших ИИ — во многом благодаря продвинутым методам сжатия и новым архитектурным подходам.

Один из ключевых методов — дистилляция знаний, при которой большая модель обучает меньшую, передавая ей самое главное. Это как если бы опытный наставник передал ученику не весь багаж, а только суть, проверенную временем. Другой способ — квантизация: модель переходит на менее точные вычисления, что почти не влияет на качество, но позволяет сократить размер в четыре-восемь раз.

Есть и архитектурные новшества, например, MoE (Mixture of Experts). Модель состоит из множества «экспертов», но для каждой задачи активируются только нужные. Это делает работу быстрее и эффективнее. А pruning — метод, при котором из сети удаляют лишние связи, словно обрезая дерево: ничего лишнего, только то, что помогает расти дальше.

Где «маленькое» оказывается большой проблемой

Несмотря на впечатляющие преимущества, у малых языковых моделей есть объективные ограничения, которые могут быть критичными для бизнеса. Честное понимание этих минусов поможет принять взвешенное решение.

«SLM могут испытывать трудности с выполнением более сложных задач из-за меньшего размера модели и более низкой производительности», — предупреждают эксперты SoftwareMind.

Конкретные проблемы

  • Слабое обобщение: модели плохо адаптируются к новым задачам вне области обучения.
  • Ограниченные знания: не справляются с комплексными вопросами, требующими широкой эрудиции.
  • Переключение контекста: трудности при смене темы разговора или типа задач.

Также эксперты отмечают повышенные риски, связанные с открытым исходным кодом таких систем. «Основной риск безопасности при использовании тонко настроенной SLM — это кража данных и проблемы конфиденциальности, особенно если SLM настроена на собственные и конфиденциальные данные», — предостерегает Мехрин Киани, ML-специалист Protect AI.

У SLM есть и экономические подводные камни. Во-первых, найти опытных специалистов в этой области — задача не из легких: такие кадры редки и стоят дорого. Во-вторых, обучение моделей требует качественных и тщательно размеченных датасетов, создание которых — отдельная статья расходов.

SLM в России

«Россия отстает от лидеров — США и Китая — примерно на шесть месяцев или год. Это значительно, но не критично», — констатирует Александр Ведяхин, первый заместитель председателя правления ПАО «Сбербанк».

В целом во внедрении этой технологии лидируют «Яндекс» и «Сбер». Александр Ведяхин заявил: «Я считаю, что любая страна, которая видит себя независимой на мировой арене, должна иметь свою собственную большую языковую модель».

Герман Греф также отметил, что «Россия входит в пятерку стран с собственными фундаментальными ИИ-моделями. У нас есть две такие модели — „Сбер“ и „Яндекс“. В целом мы обеспечиваем достаточно конкурентоспособный уровень услуг».

«Т-Технологии» открыли доступ к малым языковым моделям T-Lite (7 млрд параметров) и T-Pro (32 млрд параметров), которые стали «одними из самых эффективных в мире LLM» для российских компаний.

Группа компаний «УльтимаТек» активно внедряет ИИ-решения в горнорудной и металлургической промышленности, используя технологии адаптивного управления контекстом и мультиагентные системы.

В настоящее время у российских команд есть уникальная возможность: пока американские гиганты гонятся за размером, отечественные разработчики могут создавать эффективные малые модели для конкретных индустрий, используя качественные русскоязычные данные.

Как бизнесу использовать новый тренд

Определите свою задачу

Не пытайтесь создать «ИИ для всего». Выберите одну конкретную проблему:

  • обработка клиентских запросов;
  • анализ документов;
  • персонализация контента;
  • автоматизация рутины.

Оцените данные

У вас есть качественные данные для обучения? Малая модель, обученная на ваших данных, может превзойти GPT-4 в вашей нише.

Начните с готовых решений

Не изобретайте велосипед. Используйте открытые модели вроде Llama, Mistral или российские T-Lite, T-Pro как основу.

Думайте о масштабе

Малая модель, развернутая на собственных серверах, может обслужить миллионы запросов за копейки. При росте бизнеса экономия станет огромной.

Подводя итоги

Вывод простой: в мире ИИ побеждает не размер, а эффективность. Пока конкуренты тратят состояния на «универсальные» решения, умные предприниматели создают точечные инструменты, которые работают лучше, быстрее и дешевле.

Следующие пять лет покажут: будущее за теми, кто поймет, что иногда меньше действительно значит больше.