Рубрики
О журнале
Соцсети
Напишите нам
Редакция: editorial@incrussia.ru
Реклама: advertising@incrussia.ru
Разобраться • 12 марта 2025
У ИИ большие проблемы с генерацией видео, 3D-моделей и синтезом речи — выяснили, в чем нейросети все еще не могут заменить людей
У ИИ большие проблемы с генерацией видео, 3D-моделей и синтезом речи — выяснили, в чем нейросети все еще не могут заменить людей
Текст: Елизавета Пикулицкая
Нет сомнений — будущее принадлежит ИИ. По подсчетам TechCrunch, в 2024 году инвестиции в генеративный ИИ составили $56 млрд. Это вдвое больше, чем годом ранее ($29,1 млрд). Ожидаемая революция в технологиях уже происходит, но если взглянуть на результаты, становится ясно: до настоящего прорыва науке еще предстоит пройти долгий путь.
Пока инвесторы закладывают прочный научный фундамент, «Инк.» вместе с экспертами посмотрел на процесс производства ИИ–контента и попытался понять, почему технологии развивают не так быстро, как мы этого хотим, и с какими барьерами сталкиваются ИИ–энтузиасты сегодня.
Кадровая генерация — это относительно новый инструмент. Одной из первых программ, которые переводили текст в видео при помощи ИИ–алгоритмов, стала Make–a–video от Meta*, анонс которой был в 2022 году. Первые результаты смотрелись неутешительно: анимированные изображения выглядели скорее забавно, чем хоть сколько-то практично.
Был и ряд стартапов, которые добились успеха значительно раньше, например виртуальные аватары. В отличие от моделей text-to-video или двигающихся картинок, сегодня такие компании предлагают пользователям первые модели оцифрованных людей. Подробно о них можно почитать в нашем материале.
Сегодня «говорящие головы» пока подойдут скорее для рутинной, несложной коммуникации. Например, в этом видео британская компания Synthesia демонстрирует, как ИИ–блогер Алекс рассказывает о прочитанных книгах и дает им короткие ревью. Отличить AI в таких продуктах легко: программе сложнее всего дается имитация голоса и мимики — последние особенно часто создают проблемы для инженеров.
Другой проект из Америки, стартап HeyGen, годом ранее выпустил ролик-сравнение — их модель против Synthesia. На первый взгляд все очевидно, но уже в последних демонстрациях становится понятно, что HeyGen сталкиваются с теми же проблемами, что и конкуренты.
Рыночная оценка Synthesia составляет $2,1 млрд, стоимость HeyGen — около $500 млн. Несмотря на огромные инвестиции, искусство имитации все еще далеко от совершенства — процесс протекает медленнее, чем нам бы того хотелось.
В воссоздании человеческой речи участвуют ученые. Недавно исследователи из MIT совместно с Лабораторией компьютерных наук и искусственного интеллекта (CSAIL) создали нейросетевую модель, которая воспроизводит звуки окружающей среды с учетом ограничений человеческого голоса.
Система распознает звуки окружающей среды, такие как лай собаки или журчание воды, и пытается воссоздать их с учетом возможностей человеческого голосового аппарата. Затем она адаптирует полученные звуки, выбирая наиболее удобные для произношения варианты.
Главная задача — изучить, как люди преобразуют реальные звуки в слова. Например, как в слове «мяу» — выражении, которое является лишь приближенной имитацией кошачьего звука. В MIT считают, что если ИИ сможет лучше понимать, как люди адаптируют звуки, он сможет точнее интерпретировать устную речь, — в том числе акценты и разговорные выражения.
Кроме того, сейчас ученые активно исследуют и то, как внешний вид роботов влияет на их восприятие человеком. В Бременском университете исследователи установили, что роботы с глазами (или чертами, похожими на глаза) кажутся людям более умными и человечными. Участникам демонстрировали гуманоидных роботов с глазами и без, после чего оценивали их в анкетах и с помощью Имплицитного ассоциативного теста (IAT).
Один из последних прорывов в робототехнике — робот с силиконовым лицом, которого создали в Колумбийском университете. Он устанавливает зрительный контакт и использует две модели искусственного интеллекта, чтобы предугадывать и воспроизводить улыбку человека еще до того, как он сам улыбнется.
Чтобы «оживить» Emo, команда создала две модели ИИ: одна анализирует мельчайшие изменения в выражении лица человека и предсказывает эмоции, другая преобразует эти предсказания в моторные команды для робота.
Чтобы обучить Emo мимике, его поставили перед камерой и дали команду двигаться случайным образом. Через несколько часов он самостоятельно научился соотносить свои выражения с двигательными командами, подобно тому как люди практикуются перед зеркалом, — этот процесс назвали «самомоделированием».
Далее Emo показывали видеозаписи лиц в покадровом режиме. После нескольких часов обучения он научился предсказывать выражения людей, улавливая едва заметные изменения на их лицах еще до того, как они начали улыбаться.
Помимо синтеза речи и попыток воссоздать человека, внимание общественности приковано к генерации видео на основе текстовых описаний. Последним словом в индустрии стала нейросеть Sora от Open AI, которую компания представила в феврале 2024 года: генератор собирает видео в разрешении до 1080p с длиной ролика до 20 секунд.
Кроме того, нейросеть работает с разными форматами, анимирует статичные изображения и делает ремиксы уже существующих видео, например расширяет их или меняет направление воспроизведения. Но почему же генерация видео с помощью ИИ сталкивается с рядом технических ограничений, которые мешают созданию длинных и последовательных роликов?
Проблема заключается в поддержании последовательности кадров на протяжении длительного времени. Дело в том, что нейросети часто испытывают трудности с воспроизведением одной и той же сцены без искажений, что особенно заметно в сложных динамических сюжетах.
Кирилл Пшинник,
основатель ed–tech платформы Zerocoder
«Современные модели, такие как диффузионные нейросети, используют случайный шум в процессе создания изображений. Это приводит к тому, что при генерации последовательных кадров нейросеть не может точно воспроизвести предыдущие сцены, вызывая изменения в персонажах, объектах и окружении. С увеличением количества кадров ошибки накапливаются. Такая непоследовательность делает невозможным создание длительных видеороликов с непрерывным и логичным повествованием. Именно поэтому современные нейросети, которые генерируют видео, часто ограничены временем в пять секунд на одну сцену».
Другая проблема — ограничение вычислительных ресурсов. Пшинник подчеркивает, что генерация длинных видеороликов требует значительных вычислительных мощностей и объема памяти. Даже при использовании современных GPU видео длительностью более нескольких секунд — ресурсоемкий и долгий процесс.
Однако есть и компании, которые задействуют ИИ в маркетинге. Компания по созданию молочных продуктов «Верховье» совместно с маркетинговым агентством Okkam сгенерировали с ИИ проморолик молочных продуктов. Глава процесса продакшна Эдуард Маас говорит, что воплотить его в жизнь удалось с помощью постобучения моделей: мощностей самих программ пока не хватает, чтобы автоматизировать процесс без создания человека. Маас подчеркивает, что в работе с ИИ до сих пор нет четко отлаженных способов контроля над процессом.
Эдуард Маас,
глава программы цифрового развития в «Агентстве стратегических инициатив», руководитель цифровой лаборатории «Газпром–Медиа»
«Главная сложность при работе с рекламой — отсутствие точного контроля над конечным результатом. Генеративные видео могут давать нестабильные кадры, некорректные движения объектов и создавать сложность в интеграции брендированных элементов и продукта. Когда мы столкнулись с этой задачей, смогли ее решить за счет собственных алгоритмов, позволяющих добиваться предсказуемости и точного управления контентом. Поэтому AI–видео пока не заменяют классические методы продакшена, а, скорее, служат инструментом для оптимизации и ускорения работы».
Несмотря на это, Кирилл Пшинник настроен оптимистично. Он уверен, что по мере развития моделей и увеличения вычислительных мощностей мы будем все активнее использовать ИИ в генеративных индустриях — и это произойдет уже скоро. «Уже в течение пяти лет мы увидим первые фильмы, полностью созданные нейросетью. Первоначально эта технология будет доступна только крупным студиям, но в перспективе десяти лет, с драматическим снижением стоимости вычислений, она станет доступной каждому. Так появится новая эпоха кино, где каждый сможет стать режиссером, продюсером, оператором и актером одновременно», — считает он.
С момента открытого тестирования Sora прошло чуть больше года. За это время на сцену вышел главный конкурент — Google Veo 2. Компания представила нейросеть в декабре 2024 года, но лишь на стадии тестирования: Veo 2 пока доступна ограниченному числу пользователей из США.
Проект уже выглядит многообещающе: 4K–роли с кинематографией и продолжительностью до нескольких минут. Кстати, обучалась нейросеть на роликах YouTube и в интернете уже можно найти примеры ее работ и даже сравнение с другими «нейронками» — пока что это потенциальный шаг в будущее.
То, как технологии перейдут от двухминутных роликов к полноценным фильмам, объясняет закон Мура. Он гласит, что количество транзисторов на кристалле удваивается примерно каждые два года, что ведет к экспоненциальному росту вычислительных мощностей. Это означает, что уже через пять лет доступная мощность процессоров и графических ускорителей увеличится примерно в четыре-восемь раз. Такой рост напрямую повлияет на развитие генеративных нейросетей для создания видео.
Да, сегодняшние модели, такие как Sora и Veo 2, могут генерировать видеоролики длиной до нескольких минут, но для создания полноценного фильма (90–120 минут) требуется значительно больше вычислительных ресурсов. С увеличением мощностей и оптимизацией алгоритмов качество и продолжительность роликов вырастут. Это же произошло с текстовыми моделями: GPT-2 генерировал короткие абзацы, а спустя пару лет GPT-4 уже мог писать книги.
Первые программы по генерации трехмерных изображений появились не так давно: первые полноценные модели объектов создавал продукт от Nvidia. Технология называлась DIB-R и прогнозировала, как двухмерная картинка могла бы выглядеть в трехмерном пространстве. Алгоритм рассчитывал освещение, текстуру, глубину и объем и после выдавал результат. Но для массового использования DIB-R выглядел слишком сырым.
В массы 3D–ИИ вышел с запуском другой, более поздней нейросети от Nvidia — GANverse3D. Технология позволила быстро создавать 3D–объекты из простых фотографий, значительно упростив процесс моделирования. GANverse3D была основана на предыдущей модели, DIB-R, но значительно превосходила предшественницу по качеству работы: повысилась детализация, а на смену привычным датасетам пришло беконечное множество фотографий. Кроме того, технология позволила выполнять постобработку модели в программе Nvidia Omniverse.
С GANverse3D началась популяризация 3D–ИИ: компания стремилась к запуску продукта для широкого круга пользователей, но главной аудиторией все равно были люди из профессиональной среды — дизайнеры, разработчики и архитекторы. GANverse3D стала толчком к волне ИИ–стартапов по 3D–моделированию с помощью промптов: вскоре появились такие игроки, как DreamFusion, Tripo AI и Meshy, которые со временем заняли свою нишу в этой гонке.
Но всех этих программ пока недостаточно, чтобы точно выполнять все запросы. Несмотря на это, мы видим, как они понемногу меняют подход в работе: «Нейросети помогают автоматизировать многие повторяющиеся задачи в 3D–моделировании, такие как создание текстур, настройка освещения и рендеринг, — говорит Кирилл Пшинник. — Это позволяет дизайнерам и художникам сосредоточиться на более творческих аспектах работы, повышая общую продуктивность».
Главная проблема в работе с искусственным интеллектом пока заключается в том, что он не способен создавать сложный, осмысленный и детализированный контент без ошибок. Тимур Шовгуров, директор отдела 3D& GameDev и эксперт по сложным цифровым аватарам в компании «Наносемантика», отмечает, что даже сегодня ИИ не способен генерировать оригинальные 3D–модели, а лишь компилирует результаты, так или иначе схожие с базой данных.
Тимур Шовгуров,
директор отдела 3D& GameDev и эксперт по сложным цифровым аватарам в компании «Наносемантика»
ИИ все еще не способен создавать абсолютно оригинальные произведения контента без какого-либо внешнего влияния. Кроме того, он не может создавать сложные 3D-формы и тем более анимации. Если с генерацией статичных 2D–картинок все растет и развивается на наших глазах, то со сложными и объемными формами в движении ИИ пока справляется плохо. У большинства 3D–нейросетей сейчас низкое разрешение контента. Создать high-poly и для человека сейчас является сложной задачей.
Кроме того, у нейросетей существует проблема в понимании форм, света и деталей. Работать с пальцами, ногами, зубами — самая тяжелая часть, которая требует понимания физики тела, света, объемов. ИИ нужно еще много времени, чтобы перестать совершать даже банальные ошибки с количеством конечностей.
С этим соглашается и Маас: «В 3D-моделировании ИИ уже способен создавать базовые объекты, но по-прежнему плохо справляется с точной геометрией, анатомией персонажей и физикой анимации. Генерация текстур остается несовершенной: модели вроде Nvidia GauGAN или Dream Textures часто дают плоские изображения, которые плохо ложатся на UV-развертки. В игровых и кино-проектах это делает AI–моделирование вспомогательным инструментом, а не самостоятельным решением», — считает эксперт.
Генеративный ИИ пока остается вспомогательным инструментом из-за низкой предсказуемости и постоянной ручной доработки. Кроме того, Шовгуров считает, что мешает и вектор на упрощение ИИ–программ, которого придерживается большинство компаний: «Это лишь усложняет работу специалистов и усредняет общее качество контента».