Разобраться • 8 августа 2022
Хайп мирового масштаба от исследователя NASA. Кто придумал нейросеть Midjourney и отберет ли она работу у живых художников и дизайнеров
Хайп мирового масштаба от исследователя NASA. Кто придумал нейросеть Midjourney и отберет ли она работу у живых художников и дизайнеров
Текст: Наталья Пешкова
Фото: Bobby Longoria / Getty Images
О Midjourney говорит весь интернет: искусство, которое творит эта нейросеть, легко спутать с произведениями профессиональных художников. При этом стоит труд искусственного интеллекта в тысячи раз дешевле, а время создания картин измеряется секундами.
Как устроена эта дьявольская машинка изнутри, кто ее придумал и зачем миру живые дизайнеры и художники, если есть Midjourney?
Midjourney — разработанная одноименной американской компанией нейросеть, которая поразила пользователей по всему миру картинами (иначе назвать это невозможно), созданными на основе текстовых запросов. В феврале 2022 года проект основал ученый и предприниматель Дэвид Хольц — 33-летний выпускник факультета прикладной математики Университета Северной Каролины в Чапел-Хилл. В студенчестве Хольц успел поработать в Институте Макса Планка, где изучал алгоритмы нейровизуализации и разрабатывал карту мозга крысы на клеточном уровне, и даже в исследовательском центре NASA, где занимался технологией LiDAR (обнаружение и определение дальности с помощью света, используется, в том числе, в камерах iPhone для лучшей фокусировки на объекте).
В 2011 году молодой ученый ушел из аспирантуры и переехал в Сан-Франциско, где основал первую собственную компанию — Leap Motion (сейчас Ultraleap), которая разрабатывает датчики движения и другие системы распознавания человеческих жестов. Хольц руководил фирмой вплоть до 2021 года, но решил выйти из бизнеса: ему, по собственным словам, не хотелось управлять крупной компанией, — в интервью The Verge Хольц признался, что ему интересна другая, молодая и быстроразвивающаяся среда.
В начале 2022 года Хольц вышел из состава учредителей Ultraleap и основал Midjourney. По словам предпринимателя, штат компании даже сейчас, когда ее настигла мировая слава, не превышает 10 человек, у проекта нет инвесторов, а деньги не являются главной мотивацией основателя. «Главное, чего я хочу, — чтобы на ближайшие 10 лет у нас был дом, в котором мы могли бы экспериментировать с технологиями и создавать продукты, которые будут иметь значение не только для меня, но и для всего мира. Ну и получать удовольствие в процессе», — говорит он.
Работу Midjourney обеспечивают два технологических прорыва в области искусственного интеллекта, произошедших относительно недавно: умение нейросетей понимать человеческую речь и создавать образы. Чтобы преобразовать два этих скилла в стройную систему, которая по запросу выдает произведения искусства, нейронную сеть обучают выстраивать соответствие между текстовыми описаниями и визуальными образами на сотнях миллионов примеров. Результаты такого обучения позволяют решать различные кросс-модальные задачи — генерацию картинок по текстовому описанию, генерацию текстовых описаний по картинкам, дорисовку частей изображения, и так далее, говорит руководитель управления экспериментальных систем машинного обучения SberDevices Сергей Марков. «Midjourney — это диффузионная нейронная сеть и состоит как бы из двух нейросетей: первая отвечает за обработку и понимание текста, вторая — за генерацию изображения», — объясняет Марков.
В середине июля Midjourney вышла в фазу бета-тестирования и стала доступна пользователям по всему миру. Правда, чтобы дать задание Midjourney, нужно быть зарегистрированным в Discord — кросс-платформенном мессенджере, популярном у геймеров, разработчиков игр и дизайнеров. Сначала нужно зайти на официальный сайт Midjourney и авторизоваться через Discord, затем оплатить подписку или воспользоваться бесплатной версией. Бесплатная версия позволяет сгенерировать и скачать 12 изображений, но не дает доступ к личному кабинету (это мешает отслеживать судьбу своих запросов в общем чате), за $10 можно создавать до 200 изображений в месяц, за $30 — генерировать бесконечное количество картинок. Доступна также корпоративная подписка стоимостью $600, которая дает сотрудникам компании возможность создавать картинки в команде и просматривать индивидуальные работы друг друга.
По словам Хольца, способ доступа к системе через Discord он выбрал из-за группового принципа работы платформы: люди охотнее фантазируют, когда собираются в группы, считает Хольц. Присоединившись к сервису, можно отправлять текстовые команды для создания изображений вместе с другими пользователями или поодиночке на любом из множества каналов Discord.
Чтобы создать изображение, достаточно внести в чат с ботом Midjourney слова, описывающие картину, которую в итоге хочется получить. Система сгенерирует четыре изображения на выбор, а дальше наиболее подходящую картинку можно масштабировать, изменять и дорабатывать до идеала.
Полученные изображения появляются в общем канале Discord примерно через минуту после отправки запроса. Обладатели платной подписки могут отправлять боту команды в формате личных сообщений, а не через общедоступный канал. Но сгенерированные нейросетью изображения по умолчанию остаются общедоступными для просмотра.
Midjourney не первая и не единственная нейросеть, способная генерировать изображения на основе текстовых запросов, — до этого мир потрясли DALL-E от OpenAI и Imagen от Google.
Разработку DALL-E обеспечил грант в $1 млрд от Microsoft, который корпорация выделила проекту OpenAI, специализирующемуся на технологиях искусственного интеллекта. На эти средства OpenAI разработал нейросеть на базе третьего поколения алгоритма обработки естественного языка GPT-3, который компания создала годом ранее. Для широкой аудитории нейросеть стала доступна через два года — в январе 2021-го. А в апреле 2022 года вышла ее улучшенная версия — DALL-E 2.
В ноябре 2021 года команда разработчиков Sber AI создала аналогичную нейросеть, которая обрабатывает запросы на русском языке. Проект получил название ruDALL-E, но отношения к оригинальному DALL-E не имеет: разработки засекречены, и российские специалисты самостоятельно обучали нейросеть с нуля. Разработчики заявляют, что процесс обучения ruDALL-E стал самой большой вычислительной задачей в России.
В мае 2022 года нейросеть Imagen, генерирующую изображения, выпустил Google. На официальном сайте продукта разработчик утверждает, что Imagen превосходит DALL-E по точности изображений и соответствию картинки техническому заданию.
Никаких технологических «киллер-фичей» у Midjourney нет, уверен директор по науке и технологиям консалтинговой компании «Агентство Искусственного Интеллекта» Роман Душкин. По его словам, все перечисленные системы работают по общему принципу: человек дает как можно более конкретное текстовое описание той картинки, которую он хочет получить. Благодаря технологии глубокого обучения, нейросеть понимает смысл текста и преобразует его в картинку. Общая модель работы нейросетей такого типа открыта и понятна: о ней пишут подробные статьи в научных журналах. Разница и конкурентное преимущество — в индивидуальных технологических особенностях, которые влияют на пользовательский опыт и которые разработчики не раскрывают. Например, Midjourney обеспечивает более высокое разрешение итоговых картинок и большую детализацию в соответствии с текстовым запросом, отмечает руководитель лаборатории искусственного интеллекта в новых материалах центра в сфере ИИ на базе университета «Иннополис» Руслан Лукин.
Но все же главный «изюм» Midjourney в том, что ею может воспользоваться любой желающий, в отличие от других подобных нейросетей, доступ к которым возможен только по приглашениям или платно, считает исследователь разработчика ИИ-продуктов DeepPavlov.ai Александр Чернявский. «Среди всех генерирующих картинки из текста нейросетей это первая широкодоступная и частично бесплатная сеть, которая благодаря этой особенности „завирусилась“ в интернете», — говорит он. DALL-E 2 тоже можно использовать свободно, но доступ к ней открыли совсем недавно, а Midjourney изначально пошла по пути массового использования и не прогадала, добавляет Сергей Марков из Sber AI:
«Пути хайпа не всегда поддаются рациональному анализу, но, безусловно, Midjourney сегодня — это одна из лучших моделей для создания изображений по текстовым описаниям среди доступных широкой публике».
По его прогнозу, несмотря на преимущества, хайп вокруг Midjourney продлится недолго: через какое-то время ей на смену придут еще более совершенные модели, так как прогресс в этой области сейчас очень быстрый, считает эксперт.
Зачем нам нужна Midjourney и ее аналоги? Исключительно для развлечения или для чего-то еще?
По мнению Романа Душкина из «Агентства Искусственного Интеллекта», у функции визуализации нейросетей большой спектр практического применения, начиная от маркетплейсов, где нужно генерировать множество однотипных картинок для представления товаров на сайте, до создания художественных произведений и генерации NFT. Руководитель группы исследований компании по разработке технологий искусственного интеллекта Just AI Мурат Апишев к этому списку добавляет генерацию маркетингового и внутриигрового контента, дизайна, анимации и даже кино. Сергей Марков убежден, что подобные Midjourney системы найдут применение в интерьерном дизайне и дизайне упаковок, генерации прототипов веб-страниц, элементов интерфейсов, эмодзи и стикеров, в гейм-индустрии для создания персонажей или целых миров, в архитектуре, разработке логотипов и фирменного стиля, дизайне одежды, боди-арте, ивент-индустрии, иммерсивных театрах — «и это еще далеко не полный список». Монетизировать такие системы можно множеством различных способов, рассуждает Душкин, но «намного более перспективным, чем подписка, кажется создание крупных шедевров, которые можно продавать на аукционах».
В июне 2021 года журнал Cosmopolitan вышел с первой в мире обложкой, созданной нейросетью. На картинке изображена женщина-космонавт, будто бы снятая на широкоугольный объектив, а надпись на ней гласит: «это заняло всего 20 секунд». Автором обложки была нейросеть DALL-E.
Эта история вызвала бурные обсуждения в Twitter: часть пользователей восхищались работой нейросети, часть — хейтили ее, а кто-то всерьез обеспокоился тем, что машины в ближайшем будущем отберут работу у художников и дизайнеров, ведь шедевры уровня именитых мастеров теперь можно создавать за пару минут и пару десятков долларов в месяц.
Основательница арт-компании Everal Люси Виноград призывает по этому поводу не беспокоиться: по ее словам, нейросети были и остаются только инструментом для визуализации, но не полноценным творцом. «Искусство — это в первую очередь идея, а нейросети генерируют лишь бездумную красоту. Без человека они беспомощны», — уверена предпринимательница. При этом искусственный интеллект уже решает многие задачи визуальной составляющей дизайна, и здесь им правда нет равных, добавляет она.
Художник и сооснователь сети квестов «Клаустрофобия» Богдан Кравцов считает нейросеть мощным инструментом в руках художника, «максимум — его соавтором», но точно не полноценной заменой человека. «Именно живой человек ставит задачу, настраивает параметры нейросети, а в конце работы — фильтрует результаты, отбирая удавшиеся дубли в соответствии с собственным эстетическим чувством», — говорит Кравцов.
Но самое главное, чего не хватает нейросети, чтобы стать художником, — способности захотеть создать картину».
Отбор результатов, разделение вариантов на более и менее удачные — действительно важная задача, которая пока не под силу искусственному интеллекту, согласен Роман Душкин из «Агентства Искусственного Интеллекта»: «Эмоциональный отклик — это то, ради чего мы воспринимаем искусство. А оценить будущий эмоциональный отклик, который вызовет произведение у человека, может только человек, ведь у нейросетей эмоций нет, — напоминает он. — Поэтому созданные ИИ шедевры — это всегда человекомашинное творчество и не стоит бояться использовать этот мощный инструмент для создания шедевров».
Сам основатель Midjourney Дэвид Хольц не планирует отбирать работу у живых художников и дизайнеров и призывает отложить паранойю по этому поводу. «Да, компьютеры лучше справляются с визуальным изображением, чем 99% людей на планете. Но это не значит, что мы перестанем воображать. Машины передвигаются быстрее людей, но ведь мы из-за этого не перестали ходить. Мы перемещаем огромное количество вещей на огромные расстояния, нам для этого нужны самолеты, лодки или автомобили с более приспособленными для таких задач двигателями, — констатирует Хольц. — Так что мы рассматриваем Midjourney исключительно как двигатель воображения. И лично я считаю нашу нейросеть очень гуманистическим изобретением».