Шанхайский стартап MiniMax представил свою «рассуждающую» модель искусственного интеллекта (ИИ) M1, сообщает The South China Morning Post (SCMP). Согласно технической документации, она потребляет менее половины вычислительной мощности DeepSeek-R1 для решения логических задач с длиной цепочки 64 тыс. токенов или меньше. По компании отметили, это значительно повышает эффективность обучения и вывода.
Фото: SCMP
M1 основана на базовой модели MiniMax-Text-01 с 456 млрд параметров и использует гибридную архитектуру «смесь экспертов» — подход к разработке моделей ИИ для сокращения вычислительных затрат — и технологию Lightning Attention, которая ускоряет обучение, снижает потребление памяти и позволяет модели обрабатывать более длинные тексты.
M1 поддерживает контекстное окно до 1 млн входных токенов — в 10 раз больше, чем у DeepSeek R1, — и генерирует до 80 тыс. выходных токенов. Компания утверждает, что это делает модель идеальной для сложных бизнес-задач, требующих обработки длинных текстов и глубокого анализа.
По независимым тестам, на которые сослался MiniMax, M1 сопоставима по производительности с моделями от Google, Microsoft и Amazon в математике, программировании и других областях.
SCMP пишет, что в техническом отчете MiniMax 24 раза упомянула DeepSeek, что подчеркивает стремление превзойти конкурента из Ханчжоу, чья доступная модель R1 в начале года привлекла внимание мира.