Microsoft сделала важный шаг к снижению зависимости от своего партнера OpenAI: компания представила собственные ИИ-модели, способные конкурировать с последними разработками от команды Сэма Альтмана. Новые разработки, MAI-Voice-1 и MAI-1-preview, уже начали появляться в продуктах компании и призваны составить конкуренцию будущим моделям, таким как GPT-5.
Valent Lau/Unsplash
Проблема для Microsoft заключалась в том, что ее флагманский ИИ-ассистент Copilot в значительной степени полагался на технологии OpenAI. Создание собственных моделей позволяет компании лучше контролировать разработку, оптимизировать их под свои продукты и данные, а также снизить лицензионные отчисления. Это стратегический шаг в гонке ИИ.
Модель MAI-Voice-1 предназначена для генерации речи и отличается впечатляющей скоростью: она может создать минуту аудио менее чем за секунду на одном GPU. Эта технология уже используется в Copilot Daily для озвучивания новостей и в инструментах для создания подкастов на сложные темы. Пользователи могут экспериментировать с ней в Copilot Labs, настраивая тон и стиль голоса.
Вторая модель, MAI-1-preview, является большой текстовой моделью, обученной на 15 тыс. графических процессоров Nvidia H100. Она нацелена на выполнение инструкций и ведение диалогов. Microsoft позиционирует ее как «взгляд на будущие предложения внутри Copilot», намекая на ее ключевую роль в будущих версиях ассистента. Модель уже проходит публичное тестирование на платформе LMArena.
Глава Microsoft AI Мустафа Сулейман заявил, что его цель — создавать модели, которые «действительно работают на потребителя», используя огромные массивы данных компании. Основное внимание уделяется созданию цифровых компаньонов для повседневной жизни, а не корпоративным клиентам.
Microsoft ранее также представила модель синтеза речи (text-to-speech) VibeVoice, которая способна генерировать до полутора часов диалогов разных людей.