Новости

Исследователи воссоздали «Голодек» из Star Trek с помощью искусственного интеллекта

В стремлении обучить роботов выполнению реальных задач исследователи создали «Голодек» — систему искусственного интеллекта, способную генерировать детальные, настраиваемые 3D-среды по запросу, вдохновленную технологией «Голодека» из «Звездного пути».

Исследователи из Университета Пенсильвании и компании AI2 разработали «Голодек», продвинутую систему, способную генерировать широкий спектр виртуальных сред для обучения агентов ИИ.

В фильме «Звездный путь: следующее поколение» капитан Пикард и экипаж корабля «Энтерпрайз» используют «Голодек» — пустую комнату, способную генерировать трехмерную среду, — для подготовки к миссии и развлечений. Эта технология позволяет моделировать все: от густых джунглей до Лондона Шерлока Холмса. Эти «погружающие» и полностью интерактивные среды можно бесконечно настраивать: экипаж просто запрашивает у компьютера определенную обстановку, и она материализуется в «Голодеке».

Сегодня виртуальные интерактивные среды также используются для обучения роботов перед их внедрением в реальный мир в процессе, называемом Sim2Real. 

«Художники вручную создают такие среды, — говорит Юэ Ян, докторант в лабораториях Марка Яцкара и Криса Каллисона-Берча, ассистента и доцента кафедры компьютерных и информационных наук (CIS) соответственно. — Эти художники могут потратить неделю на создание одной среды. Все решения, начиная от планировки пространства, размещения объектов и заканчивая цветами, используемыми при визуализации».

Недостаток виртуальных сред является проблемой, если вы хотите обучить роботов ориентироваться в реальном мире со всеми его сложностями. Нейронные сети, системы, на которых держится современная революция в области ИИ, требуют огромных объемов данных, что в данном случае означает симуляцию физического мира.

«Генеративные системы ИИ, такие как ChatGPT, обучаются на триллионах слов, а генераторы изображений, такие как Midjourney и DALLE, — на миллиардах изображений, — говорит Каллисон-Берч. — У нас есть лишь малая часть такого количества 3D-среды для обучения так называемого воплощенного ИИ. Если мы хотим использовать методы генеративного ИИ для разработки роботов, способных безопасно ориентироваться в реальном окружении, то нам придется создать миллионы или миллиарды симулированных сред».

Используя повседневный язык, пользователи могут попросить «Голодек» сгенерировать практически бесконечное разнообразие 3D-пространств, что создает новые возможности для обучения роботов ориентироваться в мире.

«Голодек» — система для создания интерактивных 3D-пространств, созданная совместно Каллисон-Берч, Яцкаром, Янгом и Лингджи Лю, доцентом кафедры CIS Аравиндом К. Джоши, а также сотрудниками Стэнфорда, Университета Вашингтона и Института искусственного интеллекта Аллена (AI2).

Названный в честь своего предшественника из «Звездного пути», «Голодек» генерирует практически неограниченный диапазон внутренней обстановки, используя искусственный интеллект для интерпретации запросов пользователей. «Голодек» использует знания, заложенные в больших языковых моделях (LLM), системах, лежащих в основе ChatGPT и других чат-ботов.

«Мы можем использовать язык для управления, но язык — это очень сжатое представление всего мира, — говорит Янг. — Действительно, благодаря огромному количеству текста, который они получают в процессе обучения, LLM обладают удивительно высоким уровнем знаний о дизайне помещений. По сути, „Голодек“ работает, вовлекая LLM в разговор, используя тщательно структурированную серию скрытых запросов, чтобы разложить запросы пользователя на конкретные параметры».

Подобно тому как капитан Пикард может попросить «Голодек» из Star Trek смоделировать питейное заведение, исследователи могут попросить «Голодек» из Penn’s создать квартиру 1b1b исследователя, у которого есть кошка.

Система выполняет этот запрос, разбивая его на несколько шагов: сначала создаются пол и стены, затем дверной проем и окна. Затем «Голодек» ищет в Objaverse, обширной библиотеке готовых цифровых объектов, предметы обстановки, которые можно было бы ожидать в таком помещении: журнальный столик, башню для кошки, и так далее. После он запрашивает модуль планировки, который, по замыслу исследователей, должен ограничивать размещение объектов, чтобы в итоге не получился унитаз, торчащий горизонтально из стены.

Чтобы оценить возможности «Голодека» с точки зрения их реалистичности и точности, исследователи создали 120 сцен с помощью него и ProcTHOR, более раннего инструмента, созданного компанией AI2, и попросили несколько сотен студентов Penn Engineering указать предпочтительную версию, не зная, какие сцены были созданы с помощью того или иного инструмента.

По всем критериям — выбор активов, согласованность компоновки и общее предпочтение — студенты неизменно оценивали окружение, созданное «Голодеком», более положительно. Исследователи также проверили способность «Голодека» генерировать сцены, которые менее типичны для исследований в области робототехники и которые сложнее создать вручную, чем интерьеры квартир, магазины, общественные места и офисы.

Сравнивая результаты «Голодека» с результатами ProcTHOR, которые были созданы с использованием правил, созданных человеком, а не текста, сгенерированного ИИ, исследователи снова обнаружили, что люди, оценивающие результаты, предпочитают сцены, созданные «Голодеком». Это предпочтение сохранялось в широком спектре помещений, от научных лабораторий до художественных студий, от раздевалок до винных погребов.

Также исследователи использовали сцены, созданные «Голодеком», для «тонкой настройки» воплощенного агента ИИ. «Окончательное испытание «Голодека» заключается в том, чтобы с его помощью помочь роботам более безопасно взаимодействовать с окружающей средой, подготовив их к обитанию в местах, где они никогда раньше не бывали», — говорит Яцкар.

В нескольких типах виртуальных пространств, включая офисы, детские сады, спортзалы и игровые автоматы, «Голодек» оказал выраженное и положительное влияние на способность агента ориентироваться в новых пространствах.

Например, если при предварительном обучении с помощью ProcTHOR (в ходе которого агент совершил около 400 млн виртуальных шагов) агент успешно находил пианино в музыкальной комнате лишь в 6% случаев, то при тонкой настройке с помощью 100 музыкальных комнат, сгенерированных «Голодеком», агент справлялся с задачей более чем в 30% случаев.

«В этой области долгое время проводились исследования в жилых помещениях, — говорит Янг. — Но существует так много разнообразных сред — эффективная генерация большого количества сред для обучения роботов всегда была большой проблемой, но „Голодек“ предоставляет такую возможность».

Ранее фонд Джереми Коллера и Тель-Авивский университет объявили конкурс под названием Coller Dolittle Challenge for Interspecies Two-Way Communication. Хотя использование искусственного интеллекта не является обязательным, команда говорит, что технология может повысить шансы на успех. «Я убежден, что ИИ поможет нам раскрыть секрет межвидового общения», — сказал Джереми Коллер, председатель фонда.