Microsoft сделала важный шаг к снижению зависимости от своего партнера OpenAI: компания представила собственные ИИ-модели, способные конкурировать с последними разработками от команды Сэма Альтмана. Новые разработки, MAI-Voice-1 и MAI-1-preview, уже начали появляться в продуктах компании и призваны составить конкуренцию будущим моделям, таким как GPT-5.

Valent Lau/Unsplash

Проблема для Microsoft заключалась в том, что ее флагманский ИИ-ассистент Copilot в значительной степени полагался на технологии OpenAI. Создание собственных моделей позволяет компании лучше контролировать разработку, оптимизировать их под свои продукты и данные, а также снизить лицензионные отчисления. Это стратегический шаг в гонке ИИ.

Модель MAI-Voice-1 предназначена для генерации речи и отличается впечатляющей скоростью: она может создать минуту аудио менее чем за секунду на одном GPU. Эта технология уже используется в Copilot Daily для озвучивания новостей и в инструментах для создания подкастов на сложные темы. Пользователи могут экспериментировать с ней в Copilot Labs, настраивая тон и стиль голоса.

Вторая модель, MAI-1-preview, является большой текстовой моделью, обученной на 15 тыс. графических процессоров Nvidia H100. Она нацелена на выполнение инструкций и ведение диалогов. Microsoft позиционирует ее как «взгляд на будущие предложения внутри Copilot», намекая на ее ключевую роль в будущих версиях ассистента. Модель уже проходит публичное тестирование на платформе LMArena.

Глава Microsoft AI Мустафа Сулейман заявил, что его цель — создавать модели, которые «действительно работают на потребителя», используя огромные массивы данных компании. Основное внимание уделяется созданию цифровых компаньонов для повседневной жизни, а не корпоративным клиентам.

Microsoft ранее также представила модель синтеза речи (text-to-speech) VibeVoice, которая способна генерировать до полутора часов диалогов разных людей.