Новости

ИИ Viggle начал создавать из фотографий мегапопулярные мемы и визуализировать идеи

Возможно, не все еще знакомы с искусственным интеллектом Viggle, но наверняка многие видели созданные им вирусные мемы. Канадский ИИ-стартап ответственен за десятки видеороликов, в которых рэпер Лил Ячти подпрыгивает на сцене летнего музыкального фестиваля. В одном видео Лил Ячти заменяется Джокером Хоакина Феникса. В другом — Иисус, который, казалось, подбадривал толпу. Пользователи создали бесчисленное множество версий этого видео, но подпитывал мемы один ИИ-стартап. Генеральный директор Viggle утверждает, что видеоролики с YouTube питают его модели ИИ, сообщает TechCrunch.

Viggle обучила модель JST-1, основанную на 3D-видео, «подлинному пониманию физики», как утверждает компания в своем пресс-релизе. Генеральный директор Viggle Ханг Чу говорит, что ключевое отличие Viggle от других видеомоделей ИИ заключается в том, что она дает возможность пользователям указывать движения, которые они хотят видеть в персонажах.

Другие видеомодели искусственного интеллекта часто создают нереалистичные движения персонажей, не подчиняющиеся законам физики, но Чу утверждает, что модели Viggle отличаются от них.

«По сути, мы создаем новый тип графического движка, но исключительно на основе нейронных сетей, — сказал Чу. — Сама модель сильно отличается от существующих видеогенераторов, которые в большинстве основаны на пикселях и не очень понимают структуру и свойства физики. Наша модель рассчитана на такое понимание, и именно поэтому она оказалась значительно лучше в плане управляемости и эффективности генерации».

Чтобы создать видео с Джокером в образе Лил Ячти, достаточно загрузить исходное видео (Лил Ячти танцует на сцене) и изображение персонажа (Джокера), который должен повторить эти движения. Кроме того, пользователи могут загружать изображения персонажей вместе с текстовыми подсказками, содержащими инструкции по их анимированию. В качестве третьего варианта Viggle позволяет пользователям создавать анимированных персонажей с нуля, используя только текстовые подсказки.

Но мемы составляют лишь небольшой процент пользователей Viggle; Чу говорит, что модель получила широкое распространение как инструмент визуализации для творческих людей. По словам Чу, видеоролики далеки от совершенства — они трясутся, а лица лишены выражения, но они уже доказали свою эффективность для режиссеров, аниматоров и дизайнеров видеоигр, позволяя им воплотить свои идеи в жизнь.

Сейчас модели Viggle создают только персонажей, но Чу надеется, что в дальнейшем они смогут создавать более сложные видеоролики. В настоящее время Viggle предлагает бесплатную, ограниченную версию своей модели ИИ в Discord и веб-приложении.

Компания также предлагает подписку за $9,99 для расширения возможностей и предоставляет некоторым создателям особый доступ в рамках программы для создателей. По словам генерального директора, Viggle ведет переговоры с киностудиями и студиями видеоигр о лицензировании технологии, но он также наблюдает, как ее принимают независимые аниматоры и создатели контента.

Недавно Viggle объявила о привлечении серии А в размере $19 млн под руководством Andreessen Horowitz и при участии Two Small Fish. По словам стартапа, этот раунд поможет масштабироваться, ускорить разработку продуктов и расширить команду. Viggle рассказал, что для обучения и запуска своих моделей ИИ он сотрудничает с Google Cloud, а также с другими облачными провайдерами. Партнерство с Google Cloud часто включает доступ к кластерам GPU и TPU, но, как правило, не к видео с YouTube для обучения моделей ИИ.

«Пока что мы полагаемся на данные, которые находятся в открытом доступе», — Чу сказал примерно то же, что и технический директор OpenAI Мира Мурати о данных для обучения Sora. На вопрос, включает ли набор обучающих данных Viggle видеоролики с YouTube, Чу ответил однозначно: «Да».

Это может быть проблемой. В апреле генеральный директор YouTube Нил Мохан заявил Bloomberg, что использование видеороликов YouTube для обучения ИИ-генератора текста в видео будет «явным нарушением» условий обслуживания платформы. Эти комментарии были сделаны в контексте того, что OpenAI потенциально использовала видеоролики YouTube для обучения Sora.

Мохан пояснил, что Google, которой принадлежит YouTube, может заключать контракты с некоторыми авторами на использование их видео в обучающих наборах данных для Gemini компании Google DeepMind. Однако, согласно словам Мохана и условиям обслуживания YouTube, сбор видео с платформы запрещен без разрешения от компании.

После интервью с генеральным директором Viggle представитель Viggle отказался от заявления Чу, сообщив, что генеральный директор «слишком рано заговорил о том, использует ли Viggle данные YouTube для обучения. Hang/Viggle не может поделиться деталями своих данных для обучения».

После указания, что предыдущие комментарии Чу были занесены в протокол, и просьбы дать четкое заявление по этому вопросу, представитель Viggle подтвердил в своем ответе, что ИИ-стартап обучается на видеороликах YouTube:

«Для создания контента ИИ компания Viggle использует различные публичные источники, включая YouTube. Наши данные для обучения тщательно отбираются и уточняются, что гарантирует соблюдение всех условий предоставления услуг на протяжении всего процесса. Для нас приоритетным является поддержание прочных отношений с такими платформами, как YouTube, и мы стремимся соблюдать их условия, избегая массовых загрузок и любых других действий, связанных с несанкционированным скачиванием видео». (Представители YouTube и Google пока не дали своих комментариев).

Стартап присоединяется к другим компаниям, использующим YouTube в качестве обучающих данных и таким образом действующим в «серой зоне». Сообщалось, что многие разработчики моделей ИИ, в том числе Nvidia, Apple и Anthropic, используют для обучения транскрипцию видео или клипы с YouTube.

Ранее алгоритм искусственного интеллекта, разработанный в Техасском университете, успешно предсказал 70% землетрясений в ходе испытаний, продемонстрировав потенциальные улучшения готовности к землетрясениям и управления рисками. Его результаты на международном конкурсе подчеркивают его точность и адаптивность.