Alibaba представила ИИ-модель VACE для редактирования сгенерированных видео
Исследователи из Alibaba Group представили новую универсальную ИИ-модель VACE, которая может как генерировать, так и редактировать видео. Оба процесса можно проводить в едином интерфейсе.

Модель может работать с различными данными — от текстовых запросов до последовательностей изображений или видео и пространственных масок. VACE анализирует полученную информацию и обрабатывает ее как единое целое.
Алгоритм использует маски для разделения изображения на области, которые можно изменять и зоны, которые остаются нетронутыми.
VACE выполняет четыре основные задачи: генерацию видео из текстовых запросов, создание роликов на основе эталонных изображений или клипов, редактирование видео и применение масок для целевого редактирования.
Благодаря этому новую модель можно использовать в различных областях — от анимации персонажей до замены объектов и расширения фона.
Для оценки эффективности исследователи разработали специальный бенчмарк из 480 примеров, охватывающих 12 задач редактирования видео, включая инпейнтинг, аутпейнтинг, стилизацию и контроль глубины.
Согласно результатам, VACE превосходит специализированные модели с открытым исходным кодом как по количественным показателям, так и при тестировании людьми. Однако коммерческие модели вроде Vidu и Kling все еще имеют преимущество в генерации видео на основе эталонных изображений.