Компания ByteDance представила OmniHuman-1.5, новую модель для создания видеоаватаров, которая, как сообщается, наделяет цифровых персонажей «активным разумом». Модель генерирует анимацию, которая не только синхронизирована с речью, но и осмыслена, выражает эмоции и намерения в зависимости от контекста.
Freepik
Движения существующих моделей аватаров в основном привязаны к низкоуровневым сигналам, таким как ритм аудио. Это приводит к повторяющимся и лишенным контекста жестам. OmniHuman-1.5 решает эту проблему, моделируя два типа мышления, описанных психологом Даниэлем Канеманом: «Систему 1» (быстрое, интуитивное) и «Систему 2» (медленное, логическое).
Для симуляции «Системы 2» ByteDance использует мультимодальные большие языковые модели (MLLM). Они анализируют все входные данные (изображение, аудио, текст) и создают структурированное текстовое описание — своего рода сценарий — который задает высокоуровневое семантическое направление для движений аватара. Это позволяет генерировать действия, соответствующие эмоциям и содержанию разговора.
«Система 1» отвечает за реактивные действия, такие как синхронизация губ. Для эффективного слияния сигналов от обеих «систем» была разработана специальная архитектура Multimodal DiT. Она предотвращает конфликты между различными типами входных данных (аудио, текст, изображение) и обеспечивает их гармоничную работу.
Эта технология открывает новые горизонты для создания реалистичных цифровых помощников, персонажей в играх и виртуальных ведущих. OmniHuman-1.5 уже способен генерировать качественные видео с разрешением до 1080p. Модель также показала свою универсальность, успешно справляясь со сложными сценами с несколькими персонажами и даже с анимированными животными.
Ранее эксперты спрогнозировали, что ИИ-помощники смогут решать до 95% вопросов клиентов уже через 2 года.