Meta* представила новое поколение языковых моделей — семейство Llama 4. Компания выпустила две модели: Llama 4 Scout с 17 млрд активных параметров и 16 экспертами, а также Llama 4 Maverick с 17 млрд активных параметров и 128 экспертами. Обе модели могут работать с текстом и изображениями.
Фото: Freepik
Младшую модель Llama 4 Scout можно запустить всего на одной видеокарте Nvidia H100. Она из главных особенностей новой нейросети — рекордный размер контекстного окна (определяет, сколько символов алгоритм может «держать в голове») в 10 млн токенов. Для сравнения, до сих пор самые современные коммерчески доступные языковые модели могли обрабатывать до 2 млн токенов.
Llama 4 Maverick превосходит GPT-4o и Gemini 2.0 Flash во многих бенчмарках, включая тесты на программирование, рассуждение и мультиязычность. При этом модель показывает результаты, сопоставимые с новым DeepSeek v3, имея в два раза меньше активных параметров.
Meta* также анонсировала разработку модели-учителя Llama 4 Behemoth с 288 млрд активных параметров, 16 экспертами и почти 2 трлн общих параметров. Эта модель должна превзойти GPT-4.5, Claude Sonnet 3.7 и Gemini 2.0 Pro в тестах, ориентированных на точные науки. Хотя Behemoth еще находится в стадии обучения, именно она использовалась для тренировки текущих нейросетей семейства Llama 4.
*признана в России экстремистской организацией, ее деятельность запрещена