Французский стартап Mistral AI выпустил Voxtral — новую модель для распознавания и понимания речи с открытым исходным кодом. Главная цель запуска — предложить рынку более дешевую и эффективную альтернативу проприетарным решениям от технологических гигантов, таких как Whisper от OpenAI или модели от ElevenLabs. Этот шаг продолжает стратегию Mistral по демократизации передовых ИИ-технологий.
Vika Strawberrika/Unsplash
Основная проблема существующих на рынке речевых моделей — их высокая стоимость и закрытость. Это создает барьер для стартапов и разработчиков с ограниченным бюджетом. Voxtral решает эту проблему, предлагая сопоставимую или даже более высокую производительность по цене, которая, по утверждению компании, в два раза ниже, чем у конкурентов. Стоимость использования через API начинается от $0,001 за минуту.
Voxtral выпущена в двух версиях: большая модель 24B для производственных приложений и компактная 3B для локального использования на устройствах. Модель поддерживает 8 языков и может обрабатывать аудиофайлы длиной до 30−40 минут. В отличие от простых инструментов транскрипции, Voxtral имеет встроенные функции ответов на вопросы и суммаризации, что избавляет от необходимости использовать отдельную языковую модель.
Mistral наносит удар по ценовой политике конкурентов. Тесты компании показывают, что Voxtral превосходит по производительности ведущие модели, включая Whisper large-v3 и Gemini 2.5 Flash, в ряде задач. Предлагая высокое качество по низкой цене и с открытой лицензией Apache-2.0, Mistral стремится завоевать значительную долю рынка, привлекая разработчиков, ценящих гибкость и экономичность.
В ближайшее время Voxtral будет интегрирована в голосовой режим фирменного чат-бота Le Chat. Модель также получит обновления, включающие сегментацию дикторов и определение эмоций по голосу. Этот запуск укрепляет позиции Mistral как одного из ключевых европейских игроков в области ИИ, способного на равных конкурировать с американскими технологическими гигантами.