Разобраться • 8 августа 2022

Хайп мирового масштаба от исследователя NASA. Кто придумал нейросеть Midjourney и отберет ли она работу у живых художников и дизайнеров

Хайп мирового масштаба от исследователя NASA. Кто придумал нейросеть Midjourney и отберет ли она работу у живых художников и дизайнеров

Дэвид Хольц

Текст: Наталья Пешкова

Фото: Bobby Longoria / Getty Images


О Midjourney говорит весь интернет: искусство, которое творит эта нейросеть, легко спутать с произведениями профессиональных художников. При этом стоит труд искусственного интеллекта в тысячи раз дешевле, а время создания картин измеряется секундами.

Как устроена эта дьявольская машинка изнутри, кто ее придумал и зачем миру живые дизайнеры и художники, если есть Midjourney?

Ученый, стартапер, революционер

Midjourney — разработанная одноименной американской компанией нейросеть, которая поразила пользователей по всему миру картинами (иначе назвать это невозможно), созданными на основе текстовых запросов. В феврале 2022 года проект основал ученый и предприниматель Дэвид Хольц — 33-летний выпускник факультета прикладной математики Университета Северной Каролины в Чапел-Хилл. В студенчестве Хольц успел поработать в Институте Макса Планка, где изучал алгоритмы нейровизуализации и разрабатывал карту мозга крысы на клеточном уровне, и даже в исследовательском центре NASA, где занимался технологией LiDAR (обнаружение и определение дальности с помощью света, используется, в том числе, в камерах iPhone для лучшей фокусировки на объекте).

В 2011 году молодой ученый ушел из аспирантуры и переехал в Сан-Франциско, где основал первую собственную компанию — Leap Motion (сейчас Ultraleap), которая разрабатывает датчики движения и другие системы распознавания человеческих жестов. Хольц руководил фирмой вплоть до 2021 года, но решил выйти из бизнеса: ему, по собственным словам, не хотелось управлять крупной компанией, — в интервью The Verge Хольц признался, что ему интересна другая, молодая и быстроразвивающаяся среда.

В начале 2022 года Хольц вышел из состава учредителей Ultraleap и основал Midjourney. По словам предпринимателя, штат компании даже сейчас, когда ее настигла мировая слава, не превышает 10 человек, у проекта нет инвесторов, а деньги не являются главной мотивацией основателя. «Главное, чего я хочу, — чтобы на ближайшие 10 лет у нас был дом, в котором мы могли бы экспериментировать с технологиями и создавать продукты, которые будут иметь значение не только для меня, но и для всего мира. Ну и получать удовольствие в процессе», — говорит он.

Как это работает

Работу Midjourney обеспечивают два технологических прорыва в области искусственного интеллекта, произошедших относительно недавно: умение нейросетей понимать человеческую речь и создавать образы. Чтобы преобразовать два этих скилла в стройную систему, которая по запросу выдает произведения искусства, нейронную сеть обучают выстраивать соответствие между текстовыми описаниями и визуальными образами на сотнях миллионов примеров. Результаты такого обучения позволяют решать различные кросс-модальные задачи — генерацию картинок по текстовому описанию, генерацию текстовых описаний по картинкам, дорисовку частей изображения, и так далее, говорит руководитель управления экспериментальных систем машинного обучения SberDevices Сергей Марков. «Midjourney — это диффузионная нейронная сеть и состоит как бы из двух нейросетей: первая отвечает за обработку и понимание текста, вторая — за генерацию изображения», — объясняет Марков.

В середине июля Midjourney вышла в фазу бета-тестирования и стала доступна пользователям по всему миру. Правда, чтобы дать задание Midjourney, нужно быть зарегистрированным в Discord — кросс-платформенном мессенджере, популярном у геймеров, разработчиков игр и дизайнеров. Сначала нужно зайти на официальный сайт Midjourney и авторизоваться через Discord, затем оплатить подписку или воспользоваться бесплатной версией. Бесплатная версия позволяет сгенерировать и скачать 12 изображений, но не дает доступ к личному кабинету (это мешает отслеживать судьбу своих запросов в общем чате), за $10 можно создавать до 200 изображений в месяц, за $30 — генерировать бесконечное количество картинок. Доступна также корпоративная подписка стоимостью $600, которая дает сотрудникам компании возможность создавать картинки в команде и просматривать индивидуальные работы друг друга.

По словам Хольца, способ доступа к системе через Discord он выбрал из-за группового принципа работы платформы: люди охотнее фантазируют, когда собираются в группы, считает Хольц. Присоединившись к сервису, можно отправлять текстовые команды для создания изображений вместе с другими пользователями или поодиночке на любом из множества каналов Discord.

Чтобы создать изображение, достаточно внести в чат с ботом Midjourney слова, описывающие картину, которую в итоге хочется получить. Система сгенерирует четыре изображения на выбор, а дальше наиболее подходящую картинку можно масштабировать, изменять и дорабатывать до идеала.

Полученные изображения появляются в общем канале Discord примерно через минуту после отправки запроса. Обладатели платной подписки могут отправлять боту команды в формате личных сообщений, а не через общедоступный канал. Но сгенерированные нейросетью изображения по умолчанию остаются общедоступными для просмотра.

Ничего оригинального

Midjourney не первая и не единственная нейросеть, способная генерировать изображения на основе текстовых запросов, — до этого мир потрясли DALL-E от OpenAI и Imagen от Google.

Разработку DALL-E обеспечил грант в $1 млрд от Microsoft, который корпорация выделила проекту OpenAI, специализирующемуся на технологиях искусственного интеллекта. На эти средства OpenAI разработал нейросеть на базе третьего поколения алгоритма обработки естественного языка GPT-3, который компания создала годом ранее. Для широкой аудитории нейросеть стала доступна через два года — в январе 2021-го. А в апреле 2022 года вышла ее улучшенная версия — DALL-E 2.

В ноябре 2021 года команда разработчиков Sber AI создала аналогичную нейросеть, которая обрабатывает запросы на русском языке. Проект получил название ruDALL-E, но отношения к оригинальному DALL-E не имеет: разработки засекречены, и российские специалисты самостоятельно обучали нейросеть с нуля. Разработчики заявляют, что процесс обучения ruDALL-E стал самой большой вычислительной задачей в России.

В мае 2022 года нейросеть Imagen, генерирующую изображения, выпустил Google. На официальном сайте продукта разработчик утверждает, что Imagen превосходит DALL-E по точности изображений и соответствию картинки техническому заданию.

Никаких технологических «киллер-фичей» у Midjourney нет, уверен директор по науке и технологиям консалтинговой компании «Агентство Искусственного Интеллекта» Роман Душкин. По его словам, все перечисленные системы работают по общему принципу: человек дает как можно более конкретное текстовое описание той картинки, которую он хочет получить. Благодаря технологии глубокого обучения, нейросеть понимает смысл текста и преобразует его в картинку. Общая модель работы нейросетей такого типа открыта и понятна: о ней пишут подробные статьи в научных журналах. Разница и конкурентное преимущество — в индивидуальных технологических особенностях, которые влияют на пользовательский опыт и которые разработчики не раскрывают. Например, Midjourney обеспечивает более высокое разрешение итоговых картинок и большую детализацию в соответствии с текстовым запросом, отмечает руководитель лаборатории искусственного интеллекта в новых материалах центра в сфере ИИ на базе университета «Иннополис» Руслан Лукин.

Но все же главный «изюм» Midjourney в том, что ею может воспользоваться любой желающий, в отличие от других подобных нейросетей, доступ к которым возможен только по приглашениям или платно, считает исследователь разработчика ИИ-продуктов DeepPavlov.ai Александр Чернявский. «Среди всех генерирующих картинки из текста нейросетей это первая широкодоступная и частично бесплатная сеть, которая благодаря этой особенности „завирусилась“ в интернете», — говорит он. DALL-E 2 тоже можно использовать свободно, но доступ к ней открыли совсем недавно, а Midjourney изначально пошла по пути массового использования и не прогадала, добавляет Сергей Марков из Sber AI:

«Пути хайпа не всегда поддаются рациональному анализу, но, безусловно, Midjourney сегодня — это одна из лучших моделей для создания изображений по текстовым описаниям среди доступных широкой публике».

По его прогнозу, несмотря на преимущества, хайп вокруг Midjourney продлится недолго: через какое-то время ей на смену придут еще более совершенные модели, так как прогресс в этой области сейчас очень быстрый, считает эксперт.

Как на этом заработать

Зачем нам нужна Midjourney и ее аналоги? Исключительно для развлечения или для чего-то еще?

По мнению Романа Душкина из «Агентства Искусственного Интеллекта», у функции визуализации нейросетей большой спектр практического применения, начиная от маркетплейсов, где нужно генерировать множество однотипных картинок для представления товаров на сайте, до создания художественных произведений и генерации NFT. Руководитель группы исследований компании по разработке технологий искусственного интеллекта Just AI Мурат Апишев к этому списку добавляет генерацию маркетингового и внутриигрового контента, дизайна, анимации и даже кино. Сергей Марков убежден, что подобные Midjourney системы найдут применение в интерьерном дизайне и дизайне упаковок, генерации прототипов веб-страниц, элементов интерфейсов, эмодзи и стикеров, в гейм-индустрии для создания персонажей или целых миров, в архитектуре, разработке логотипов и фирменного стиля, дизайне одежды, боди-арте, ивент-индустрии, иммерсивных театрах — «и это еще далеко не полный список». Монетизировать такие системы можно множеством различных способов, рассуждает Душкин, но «намного более перспективным, чем подписка, кажется создание крупных шедевров, которые можно продавать на аукционах».

Инструмент или конкурент?

В июне 2021 года журнал Cosmopolitan вышел с первой в мире обложкой, созданной нейросетью. На картинке изображена женщина-космонавт, будто бы снятая на широкоугольный объектив, а надпись на ней гласит: «это заняло всего 20 секунд». Автором обложки была нейросеть DALL-E.

Эта история вызвала бурные обсуждения в Twitter: часть пользователей восхищались работой нейросети, часть — хейтили ее, а кто-то всерьез обеспокоился тем, что машины в ближайшем будущем отберут работу у художников и дизайнеров, ведь шедевры уровня именитых мастеров теперь можно создавать за пару минут и пару десятков долларов в месяц.

Основательница арт-компании Everal Люси Виноград призывает по этому поводу не беспокоиться: по ее словам, нейросети были и остаются только инструментом для визуализации, но не полноценным творцом. «Искусство — это в первую очередь идея, а нейросети генерируют лишь бездумную красоту. Без человека они беспомощны», — уверена предпринимательница. При этом искусственный интеллект уже решает многие задачи визуальной составляющей дизайна, и здесь им правда нет равных, добавляет она.

Художник и сооснователь сети квестов «Клаустрофобия» Богдан Кравцов считает нейросеть мощным инструментом в руках художника, «максимум — его соавтором», но точно не полноценной заменой человека. «Именно живой человек ставит задачу, настраивает параметры нейросети, а в конце работы — фильтрует результаты, отбирая удавшиеся дубли в соответствии с собственным эстетическим чувством», — говорит Кравцов. 

Но самое главное, чего не хватает нейросети, чтобы стать художником, — способности захотеть создать картину».

Отбор результатов, разделение вариантов на более и менее удачные — действительно важная задача, которая пока не под силу искусственному интеллекту, согласен Роман Душкин из «Агентства Искусственного Интеллекта»: «Эмоциональный отклик — это то, ради чего мы воспринимаем искусство. А оценить будущий эмоциональный отклик, который вызовет произведение у человека, может только человек, ведь у нейросетей эмоций нет, — напоминает он. — Поэтому созданные ИИ шедевры — это всегда человекомашинное творчество и не стоит бояться использовать этот мощный инструмент для создания шедевров».

Сам основатель Midjourney Дэвид Хольц не планирует отбирать работу у живых художников и дизайнеров и призывает отложить паранойю по этому поводу. «Да, компьютеры лучше справляются с визуальным изображением, чем 99% людей на планете. Но это не значит, что мы перестанем воображать. Машины передвигаются быстрее людей, но ведь мы из-за этого не перестали ходить. Мы перемещаем огромное количество вещей на огромные расстояния, нам для этого нужны самолеты, лодки или автомобили с более приспособленными для таких задач двигателями, — констатирует Хольц. — Так что мы рассматриваем Midjourney исключительно как двигатель воображения. И лично я считаю нашу нейросеть очень гуманистическим изобретением».