Роботы • 2 июля 2025
Малые языковые модели: почему размер больше не имеет значения
Малые языковые модели: почему размер больше не имеет значения
Текст: Василий Макаров
Фото: Unsplash
Пока гиганты вроде OpenAI тратят миллиарды на создание все более мощных ИИ, умные стартапы делают ставку на компактные решения — и часто выигрывают.
Пока гиганты вроде OpenAI тратят миллиарды на создание все более мощных ИИ, умные стартапы делают ставку на компактные решения — и часто выигрывают.
Представьте: вы руководитель IT-отдела крупной компании. Вам нужно внедрить ИИ-помощника для сотрудников, но бюджет ограничен, а корпоративные данные нельзя передавать третьим лицам. GPT-4 не подходит — дорого, небезопасно, а для кастомизации под конкретные задачи нужен отдельный (весьма недешевый) специалист. Что делать?
Еще год назад ответ был очевиден: терпеть и копить на «большой» ИИ либо отказаться от идеи цифрового помощника. Однако сегодня все изменилось: малые языковые модели (SLM, от англ. Small Language Models) научились решать те же задачи, что и их гигантские собратья, но быстрее, дешевле и безопаснее.
Почему машина так хорошо понимает человека, хотя сами люди порой не могут найти общий язык? Все очень просто. Языковая модель — это программа, которая научилась распознавать человеческую речь и генерировать ответы не машинным кодом, а связным текстом. Представьте сверхумную автозамену в смартфоне, которая не просто исправляет ошибки, а может написать письмо, перевести текст или даже написать код.
Модель не «понимает» человека, а лишь угадывает его желания. В базе даже малых моделей миллионы текстов, анализ которых позволяет алгоритму предсказывать, какое слово должно идти следующим в текстовом блоке.
Количество параметров модели можно сравнить со словарным запасом человека. Например, GPT-4 содержит около 1,7 трлн параметров — представьте библиотеку размером с небольшой город. Малые модели работают с 1–10 млрд параметров — это, скорее, домашняя библиотека очень начитанного человека.
Если разница между языковыми моделями столь велика, возникает закономерный вопрос, зачем нужны малые, когда большие общедоступны. Чтобы ответить на него, давайте сравним ключевые показатели двух популярных алгоритмов.
GPT-4 (большая модель):
Llama 3.2 3B (малая модель):
На первый взгляд большие модели выигрывают по качеству ответов. Но дьявол кроется в деталях.
«Для очень общих задач LLM работает нормально, но как только вам нужен языковой ИИ, который будет по-настоящему полезен, вы должны использовать SLM», — объясняет Доминик Томичевич, сооснователь Memgraph. Он отмечает: «Это принцип Парето — 80% эффективности за 20% усилий. Если у вас есть конкретная проблема и хорошие данные для обучения модели, где важна приватность и эффективность важнее точности, тогда вам нужна SLM».
Пользователи не готовы ждать. Если ИИ-помощник в мобильном приложении думает пять секунд, это катастрофа для пользовательского опыта. Малые модели отвечают мгновенно.
«Модели нужно сделать экономически эффективными для масштабирования. Большие модели с большим количеством параметров становятся слишком дорогими для работы», — констатируют эксперты IBM. «Эффективные SLM предлагают компаниям ИИ-модели, которые содержат только данные, релевантные для конкретных задач, экономя затраты и энергию».
Российский сервис «Звук» (ранее «СберЗвук») демонстрирует это на практике, используя собственную малую модель для генерации аудиокниг. Стоимость обработки одного часа аудио составляет $2–5 против $50–100 при использовании больших моделей через API.
«Малые модели достаточно легкие, чтобы эффективно работать как в публичных, так и в частных облачных средах, при этом обеспечивая высококачественные результаты для специфичных задач», — отмечают аналитики Red Hat. Это критично для банков, медицинских учреждений и госструктур. «Организациям, работающим в строго регулируемых отраслях, таких как финансы и здравоохранение, необходимо учитывать соблюдение требований, конфиденциальность данных и безопасность», — подчеркивают эксперты.
В Red Hat уверены, что «SLM приоритизируют то, что действительно важно для предприятий. Они позволяют организациям интегрировать ИИ с приватными, защищенными датасетами, снижая воздействие рисков третьих сторон». По словам Криса Маля, CEO платформы управления корпоративными знаниями Pryon, «ресурсная эффективность SLM позволяет им работать на стандартном оборудовании, обеспечивая специализированный интеллект именно там, где это необходимо».
Apple Intelligence в iPhone 15 Pro использует модель с 3 млрд параметров. Она работает прямо на устройстве — никакого интернета для базовых задач не нужно.
PA Consulting создала малую языковую модель для британского ядерного объекта Sellafield для отслеживания бюрократических процессов. «Мы создали модель, чтобы помочь им сократить административную нагрузку. Модель определяет, какие изменения релевантны и какие документы затронуты, давая инженерам что-то для оценки», — рассказывает Джанлука Барлетта, эксперт по данным и аналитике PA Consulting.
Образовательные платформы также экспериментируют с малыми моделями для персонализированных объяснений, позволяя учащимся за секунды получать ответы на своем уровне понимания.
Khan Academy совместно с Microsoft разрабатывает специализированную версию малой модели Phi-3 для математического обучения. «Мы сотрудничаем с Khan Academy, чтобы исследовать возможности улучшения ИИ-инструментов для математического обучения доступным, масштабируемым и адаптируемым способом с новой версией Phi-3», — сообщает Microsoft. Модель может генерировать задачи для конкретных классов и математических тем, помогать студентам учиться через направляемые объяснения.
Сегодня маленькие языковые модели уже не выглядят как младшие братья больших ИИ — во многом благодаря продвинутым методам сжатия и новым архитектурным подходам.
Один из ключевых методов — дистилляция знаний, при которой большая модель обучает меньшую, передавая ей самое главное. Это как если бы опытный наставник передал ученику не весь багаж, а только суть, проверенную временем. Другой способ — квантизация: модель переходит на менее точные вычисления, что почти не влияет на качество, но позволяет сократить размер в четыре-восемь раз.
Есть и архитектурные новшества, например, MoE (Mixture of Experts). Модель состоит из множества «экспертов», но для каждой задачи активируются только нужные. Это делает работу быстрее и эффективнее. А pruning — метод, при котором из сети удаляют лишние связи, словно обрезая дерево: ничего лишнего, только то, что помогает расти дальше.
Несмотря на впечатляющие преимущества, у малых языковых моделей есть объективные ограничения, которые могут быть критичными для бизнеса. Честное понимание этих минусов поможет принять взвешенное решение.
«SLM могут испытывать трудности с выполнением более сложных задач из-за меньшего размера модели и более низкой производительности», — предупреждают эксперты SoftwareMind.
Конкретные проблемы
Также эксперты отмечают повышенные риски, связанные с открытым исходным кодом таких систем. «Основной риск безопасности при использовании тонко настроенной SLM — это кража данных и проблемы конфиденциальности, особенно если SLM настроена на собственные и конфиденциальные данные», — предостерегает Мехрин Киани, ML-специалист Protect AI.
У SLM есть и экономические подводные камни. Во-первых, найти опытных специалистов в этой области — задача не из легких: такие кадры редки и стоят дорого. Во-вторых, обучение моделей требует качественных и тщательно размеченных датасетов, создание которых — отдельная статья расходов.
«Россия отстает от лидеров — США и Китая — примерно на шесть месяцев или год. Это значительно, но не критично», — констатирует Александр Ведяхин, первый заместитель председателя правления ПАО «Сбербанк».
В целом во внедрении этой технологии лидируют «Яндекс» и «Сбер». Александр Ведяхин заявил: «Я считаю, что любая страна, которая видит себя независимой на мировой арене, должна иметь свою собственную большую языковую модель».
Герман Греф также отметил, что «Россия входит в пятерку стран с собственными фундаментальными ИИ-моделями. У нас есть две такие модели — „Сбер“ и „Яндекс“. В целом мы обеспечиваем достаточно конкурентоспособный уровень услуг».
«Т-Технологии» открыли доступ к малым языковым моделям T-Lite (7 млрд параметров) и T-Pro (32 млрд параметров), которые стали «одними из самых эффективных в мире LLM» для российских компаний.
Группа компаний «УльтимаТек» активно внедряет ИИ-решения в горнорудной и металлургической промышленности, используя технологии адаптивного управления контекстом и мультиагентные системы.
В настоящее время у российских команд есть уникальная возможность: пока американские гиганты гонятся за размером, отечественные разработчики могут создавать эффективные малые модели для конкретных индустрий, используя качественные русскоязычные данные.
Не пытайтесь создать «ИИ для всего». Выберите одну конкретную проблему:
У вас есть качественные данные для обучения? Малая модель, обученная на ваших данных, может превзойти GPT-4 в вашей нише.
Не изобретайте велосипед. Используйте открытые модели вроде Llama, Mistral или российские T-Lite, T-Pro как основу.
Малая модель, развернутая на собственных серверах, может обслужить миллионы запросов за копейки. При росте бизнеса экономия станет огромной.
Вывод простой: в мире ИИ побеждает не размер, а эффективность. Пока конкуренты тратят состояния на «универсальные» решения, умные предприниматели создают точечные инструменты, которые работают лучше, быстрее и дешевле.
Следующие пять лет покажут: будущее за теми, кто поймет, что иногда меньше действительно значит больше.