Microsoft Research представила новую ИИ-модель VibeVoice, способную синтезировать длинные аудиозаписи, такие как подкасты или аудиокниги, продолжительностью до 90 минут. Модель может воспроизводить речь с участием до четырех разных спикеров, сохраняя при этом естественную «атмосферу» разговора. Этот прорыв открывает новые возможности для создания сложного аудиоконтента.

Matt Botsford/Unsplash

Современные системы синтеза речи (TTS) хорошо справляются с короткими фразами одного диктора, но создание длинных многоголосых диалогов остается сложной задачей. Простое склеивание отдельных реплик звучит неестественно. VibeVoice решает эту проблему с помощью новой архитектуры, основанной на диффузионной модели, предсказывающей каждый следующий токен, и усовершенствованном токенизаторе речи.

Ключевым нововведением стал новый токенизатор, который сжимает аудиоданные в 80 раз эффективнее, чем популярная модель Encodec, без потери качества. Это значительно повышает вычислительную эффективность при обработке длинных аудиопоследовательностей. Благодаря этому VibeVoice может работать с контекстным окном в 64 тыс. токенов, что и позволяет генерировать 90-минутные записи.

VibeVoice может кардинально изменить индустрию аудиокниг, подкастов и озвучивания. Технология позволяет автоматизировать создание сложного контента, снижая затраты и время на производство. Microsoft уже опубликовала код и демоверсию на GitHub и Hugging Face. Модель доступна в версиях на 1,5 млрд и 7 млрд параметров.

