Нейросеть научили создавать ИИ-персонажей с уникальным голосом по одному запросу

Meta* совместно с исследователями из Университета Ватерлоо представила MoCha — новую AI-систему, которая может генерировать анимированных персонажей с синхронизированной речью и естественными движениями по текстовым запросам. В отличие от предыдущих моделей, фокусировавшихся только на лицах, MoCha генерирует полнотелую анимацию с различных ракурсов. Нейросеть может синхронизировать движения губ, жесты и взаимодействие между несколькими персонажами.

Система построена на нейросети с 30 млрд параметров. Она способна создавать видеоклипы в HD-качестве длительностью около пяти секунд с частотой 24 кадра в секунду. Главной особенностью модели стало использование нового механизма Speech-Video Window Attention, который решил сразу две проблемы алгоритмов для генерации видео: снижение качества картинки при обработке и несинхронные движения губ. Система ограничивает доступ каждого кадра к определенному окну аудиоданных, что точнее отражает принцип человеческой речи.

Для обучения MoCha исследователи использовали 300 часов отобранных вручную видео. При тестировании в 150 различных сценариях MoCha превзошла аналогичные системы как по синхронизации губ, так и по качеству движений персонажей. Независимые эксперты отметили высокую реалистичность сгенерированных нейросетью роликов. По мнению исследователей, система перспективна для цифровых ассистентов, виртуальных аватаров, рекламы и образовательного контента.

*организация признана экстремистской и запрещена на территории РФ

Темы

ИИ искусственный интеллект технологии