Tencent представила Hunyuan World-Voyager — систему, способную генерировать пространственно-согласованные 3D-сцены из одной фотографии, обходясь без сложных и трудоемких процессов традиционного 3D-моделирования. Эта технология значительно упрощает создание виртуальных миров для видеопроизводства и других креативных задач.
Tencent
Проблема создания 3D-контента — его высокая сложность и ресурсоемкость. Voyager решает эту проблему, позволяя пользователям загрузить фотографию и задать траекторию движения камеры. Система автоматически генерирует непрерывное видео, симулируя это движение, и создает трехмерную среду с учетом глубины и перспективы.
В основе технологии лежит совместная генерация видео в форматах RGB и с информацией о глубине (RGB-D). Данные о глубине помогают Voyager правильно оценивать расстояния и избегать искажений при взгляде на объекты под необычными углами. Это обеспечивает высокую пространственную согласованность сцены.
Ключевой инновацией является «мировой кэш» (world cache). Эта система сохраняет ранее увиденные и сгенерированные области сцены и восстанавливает их, когда камера возвращается. Избыточные данные удаляются для оптимизации памяти, что позволяет создавать длинные и стабильные траектории движения камеры без геометрических искажений.
Voyager был обучен на большом наборе данных, включающем реальные видео и сцены из Unreal Engine, что позволило модели изучить, как камеры движутся в реальном пространстве. Система может не только генерировать видео, но и напрямую выводить 3D-реконструкции, такие как облака точек. Код и веса модели общедоступны, что открывает широкие возможности для разработчиков и создателей контента.
Voyager — новая модель в линейке нейросетей Hunyuan. Ранее Tencent выпустила алгоритмы для машинного перевода, которые обошли Google Переводчик и большинство подобных систем на 33 языковых парах.