Новости

Новая модель разработчиков Stable Diffusion позволяет генерировать аудио прямо на смартфоне

Компании Stability AI и Arm представили компактную модель преобразования текста в аудио, предназначенную для работы на смартфонах. Новая разработка, названная Stable Audio Open Small, способна генерировать аудиоклипы длиной до 11 секунд примерно за 7 секунд.

Модель Stable Audio Open Small основана на технике Adversarial Relativistic-Contrastive (ARC). На высокопроизводительном оборудовании, таком как графический процессор Nvidia H100, она может создавать стереоаудио с частотой 44 кГц всего за 75 миллисекунд — достаточно для генерации звуков в реальном времени. Оригинальная версия Stable Audio Open, запущенная в прошлом году, имела 1.1 миллиарда параметров, тогда как новая уменьшенная версия использует всего 341 миллион.

Такое сокращение параметров и переработанная архитектура позволили снизить требования к памяти почти вдвое – с 6.5 ГБ до 3.6 ГБ. Это делает возможным запуск модели на мобильных устройствах. В ходе тестирования использовался смартфон Vivo X200 Pro с 12 ГБ ОЗУ и чипом Mediatek Dimensity 9400. Система состоит из автоэнкодера для сжатия аудиоданных, модуля встраивания для интерпретации текстовых запросов и диффузионной модели для генерации конечного аудио.

Stability AI отмечает, что модель особенно хорошо справляется с генерацией звуковых эффектов и полевых записей. Однако она все еще испытывает трудности с музыкой, особенно с вокалом, и лучше всего работает с англоязычными запросами. Модель была обучена примерно на 472 000 аудиоклипах из базы данных Freesound. Данные были отфильтрованы для избежания проблем с авторскими правами.