Компания Resemble AI выпустила Chatterbox Multilingual — модель преобразования текста в речь (TTS) с открытым исходным кодом, поддерживающую 23 языка. Этот шаг последовал за ошеломительным успехом англоязычной версии Chatterbox, которая превзошла по качеству даже решения от ElevenLabs и набрала более 1 млн загрузок на Hugging Face.
Phil Desforges/Unsplash
Большинство современных TTS-систем способны хорошо генерировать речь лишь на небольшом количестве языков и обладают при этом недостаточной эмоциональной выразительностью. Особенно это касается open-source решений. Chatterbox Multilingual может качественно клонировать голос на 23 языках, включая арабский, немецкий, испанский, китайский, русский и многие другие.
Новая модель позволяет не только генерировать речь, но и управлять ее эмоциональной окраской и интенсивностью, что крайне важно для создания реалистичных голосовых ассистентов, озвучивания персонажей в играх и так далее. Resemble AI подчеркивает, что модель готова к использованию в корпоративном секторе благодаря стабильной работе и встроенной системе водяных знаков для защиты от дипфейков.
Помимо открытой версии у Resemble AI есть Chatterbox Pro — на этом тарифе нейросеть можно дообучить под нужный голос человека. Также эта версия имеет сверхнизкую задержку (менее 200 мс) для работы в реальном времени. Это делает технологию идеальным решением для колл-центров, финансовых и медицинских платформ.
Ранее стартап ElevenLabs представил нейросеть для генерации музыки, которая может составить конкуренцию сервису Suno.