Сбер выпустил GigaChat 2.0. Он на уровне DeepSeek-V3 по общим знаниям, но уступает в задачах по математике и программированию
«Сбер» представил GigaChat 2.0 – обновленную линейку языковых моделей. В бенчмарках модель GigaChat 2 MAX показывает результаты на уровне нейросетей GPT-4o, DeepSeek-V3, LLaMA-70B и Qwen2.5 в общих вопросах, но уступает им в математике и генерации кода.
Все семейство GigaChat получило обновление: контекстное окно моделей выросло в четыре раза (до 200 страниц A4 против прежних 48), они стали в два раза точнее следовать инструкциям пользователя и на 25% лучше отвечать на вопросы. GigaChat 2 Pro демонстрирует качество на уровне предыдущей версии MAX, а GigaChat 2 Lite сопоставима с прежней версией Pro, но потребляет меньше ресурсов, рассказали в «Сбере».
На базе GigaChat 2.0 компании смогут создавать собственных ИИ-агентов, способных решать сложные многокомпонентные задачи. Модели стали лучше справляться с математическими задачами, получили более обширные знания в естественных и гуманитарных науках, улучшили способности к программированию.
В бенчмарках новая версия нейросети показывает результаты на уровне зарубежных аналогов. Несмотря на превосходство в тесте MMLU, GigaChat, однако, проигрывает GPT-4o и DeepSeek-V3 в большинстве бенчмарков, особенно касающихся математики и программирования.
Сравнение GigaChat в бенчмарке MERA. Фото: Сбер
«GigaChat 2.0 — не просто рост метрик и технических характеристик, а значительный шаг в развитии русскоязычных больших языковых моделей (LLM). Сильные отечественные нейросети стратегически важны для любого бизнеса, который ведет свою деятельность в России. 15 тыс. внешних клиентов уже используют GigaChat, и мощное обновление нашей линейки позволит еще большему числу клиентов эффективнее решать огромный спектр задач», — заявил Андрей Белевцев, старший вице-президент и руководитель блока «Технологическое развитие» Сбербанка.
Вся линейка GigaChat 2.0 доступна в облаке через API. Нейросети также можно развернуть локально в инфраструктуре компании. Пользователи сохранят доступ к моделям первого поколения и смогут протестировать новую версию перед переходом на нее.