Глава исследований Google по компьютерному зрению Витторио Феррари: «Компьютеры смогут видеть, но никогда не смогут функционировать, как люди»

Наталья Суворова, автор Inc.

Компьютерное зрение уже помогает пасти коров, искать преступников и подбирать мебель для дома. Камеры наблюдения с функцией распознавания лиц уже работают в метро и продуктовых магазинах, а беспилотные автомобили колесят по дорогам Калифорнии (и обещают совершить революцию на рынке транспорта). Технология буквально преобразила мир в последние несколько лет. На конференции Machines Can See, организованной VisionLabs при поддержке Сбербанка и Sistema_VC, руководитель отдела исследований Google в области компьютерного зрения Витторио Феррари рассказал Inc., насколько хорошо машины видят сегодня, какие стартапы покупает Google и почему роботы никогда не смогут достичь уровня мышления человека.

Кусок компьютерного пирога

— Чему вы сейчас учите компьютеры? Какие последние успехи?

— В последние 2 года я руковожу группами по изучению компьютерного зрения, одной — в Google, другой — в университете Эдинбурга. Примерно половина моей работы относится к развитию и обучению моделей компьютерного зрения с минимальным использованием ручной разметки данных, Transfer Learning и взаимодействию человека с компьютером (human-machine collaboration). Еще я работаю над видеосегментацией, обучаю нейросеть распознавать объекты на видео. Я очень много работаю над контекстом — чтобы создать алгоритмы для полного описания сцены, которую компьютер «видит» на картинке. Скажем, когда мы видим телефон, мы понимаем, что это телефон, не только по форме предмета, но и по другим предметам и обстановке вокруг него, — и я пытаюсь научить этому компьютер.

— Что компьютеры уже могут легко распознавать с помощью машинного зрения, а над чем еще работать и работать?

— Все упирается в то, что мы имеем в виду под зрением. Представьте, что идеальное компьютерное зрение — это пирог. Если взять все, что человек имеет в виду под словом вижу, то современные модели компьютерного зрения — лишь маленький, тонюсенький кусочек этого пирога. Сегодня хорошо работает распознавание лиц, нахождение людей (когда нужно посчитать, сколько человек на том или ином изображении), все, что связано с конкретными объектами, — например, компьютер легко может распознать одно и то же здание с разных точек или найти его изображение в большой базе данных. Кроме того, хорошо работает распознавание базовых категорий объектов — например, автомобилей или пешеходов на улицах — по категориям. Но стоит выйти за пределы четко структурированной задачи — и распознавание уже едва работает. Попросите компьютер четко и осмысленно описать каждый предмет на картинке и то, как он соотносится с окружающими объектами. Не просто: это чашка, а на ней какая-то железяка и непонятное пятно, — а со смыслом: фарфоровую чашку держит за ручку человеческая рука, а на блюдце возле чашки лежит металлическая ложка, — это намного превосходит сегодняшние возможности компьютеров.

— Что мы приобретем, если компьютеры научатся этому?

— Можно будет узнавать по фотографии свойства объекта — например эластичность покрытия стадиона, по которому бежит Усэйн Болт. Мы ведь видим, как движется поверхность, от которой отталкивается его нога, — значит, сможем определить, что это за материал и каковы его свойства.

Следующий уровень — это, например, когда компьютер будет понимать по выражению лица, что человек внимательно слушает (а это уже не столько зрение, сколько понимание культурных особенностей). Или, если на картинке человек держит перед лицом карандаш, компьютер разберется, что он не собирается его съесть, а скорее всего, собирается что-то написать.

Но для решения таких задач уже нужна логика и здравый смысл. С каждым последующим уровнем пирога мы отдаляемся непосредственно от зрения и заходим на территорию искусственного интеллекта.

— Какие проблемы можно было бы решить с помощью компьютерного зрения, если бы оно было развито до такой степени?

— Если речь идет о конкретных приложениях — поиск по пейзажу или бэкграунду фотографии в Google Photos, например. Говоришь компьютеру: выбери фотографии, где я на пляже. Следующий шаг — когда ты уточняешь условия поиска: я на пляже с собакой и в красном купальнике. Это сразу усложняет поиск по картинкам — ни один продукт сегодня с таким не справляется. Поиск нескольких объектов на фото в определенном заданном контексте — всё это компьютер пока плохо понимает. Еще более сложный уровень: я кормлю собаку печеньем на пляже. Чтобы найти фотографию, на которой это изображено, компьютер должен построить отношения между твоей рукой, печеньем и собакой и распознать бэкграунд в виде пляжа. Процесс поиска по Google Images практически так и устроен, но условия поиска и тип вопросов, которые вы можете задать, ограничивает его возможности. Базовый продукт у нас есть, но он пока не научился удовлетворять сложным условиям поиска.

7 ярких стартапов со всего мира, которые используют компьютерное зрение

Skydio

Стартап из Кремниевой долины разработал и выпустил дрон S1, который оснащен сразу 13-ю камерами и способен летать автономно благодаря компьютерному зрению. Управлять дроном можно через приложение, а его стоимость в продаже — $2,499. Skydio привлек $70 млн венчурных инвестиций, а среди инвесторов — венчурные фонды Andreessen Horowitz, Accel Partners и компания-производитель видеокарт Nvidia.

Prophesee

Парижский стартап Prophesee, до недавнего времени известный как Chronocam, на технические достижения вдохновила биология: компания разработала технологию компьютерного зрения, которая позволяет компьютеру имитировать человеческий глаз и мозг. Технология способна обрабатывать 100 тыс. видеокадров в секунду и может применяться в роботике, промышленной автоматизации и беспилотных автомобилях. Компания привлекла $37,3 млн инвестиций, в нее вложились, среди прочих, Intel, Renault и Cargill.

Cainthus

Компания Cainthus нашла особенно узкую нишу для применения технологии распознавания лиц: она использует ее в качестве виртуального пастуха для коров. Дублинский стартап работает над тем, чтобы компьютеры могли удаленно мониторить стадо коров и посылать уведомления, когда требуются действия, — например, когда животным нужна вода или еда. Кроме того, продукт может определять, что животное захворало и требует внимания ветеринара.

ViSenze

Компьютерное зрение применяется в том числе в фэшн и в электронной коммерции: сингапурский стартап ViSenze делает продукт, который позволяет пользователям искать предметы одежды, интерьера или украшения по картинкам, а его алгоритмы автоматически добавляют к ним тэги, чтобы упростить поиск. Компания уже привлекла $14 млн инвестиций.

VisionLabs

VisionLabs — пожалуй, самый крупный российский стартап, который зарабатывает на компьютерном зрении. Продукты компании позволяют анализировать фото и видео онлайн, находить в них лица людей и сравнивать их с базами данных, создавать 3D-модели лиц, а также компания ведет исследования в этой области. Среди клиентов — Mail.Ru и другие компании. В июле 2016 года АФК «Система» купила 25%-ную долю в VisionLabs за 350 млн рублей при оценке компании в 1,4 млрд рублей.

SenseTime

Продукты гонконгской компании SenseTime на основе компьютерного зрения помогают решать целый ряд проблем — от поиска преступников (с 2017 года система помогла — благодаря сравнению фоторобота с базой данных — идентифицировать более 2 тыс. подозреваемых в Гуанчжоу) до умения делать удачные селфи (компания продала свой продукт SensePhoto, который распознает лица и делает их красивее, крупнейшей китайской социальной платформе Weibo). Стартап уже собрал $637 млн инвестиций, в том числе от таких гигантов, как Alibaba и Qualcomm.

D-ID

Три бывших военнослужащих израильской армии основали в Тель-Авиве стартап D-ID, чтобы защищать персональные данные в банках и госучрежениях от хакеров. Они разработали технологию, которая как бы смазывает изображения лиц таким образом, что компьютерное зрение больше не может их распознать, — при этом изменения остаются незаметными для человеческого глаза. На счету у основателей — $4 млн венчурных инвестиций и программа в престижном акселераторе Y Combinator.

Почему компьютер не умеет принимать разумные решения (и если научится, то еще не скоро)

— Сегодня множество компаний пытаются разрабатывать продукты на основе распознавания изображений. Есть ли свободные ниши на этом рынке?

— Думаю, что вопрос не в наличии свободных ниш. Количество стартапов на рынке не должно ограничивать потенциал конкретной компании. Google, Microsoft и Apple уже выпустили ряд продуктов на основе компьютерного зрения, то есть рынок уже частично насыщен. Но вместо того чтобы думать, а есть ли там свободные ниши, стартапу надо быть креативным и пытаться создать свою собственную нишу. В конечном счете все упирается в человеческие нужды — нужно найти потребность людей и придумать, как ее удовлетворить. Люди покупают машины, ходят в кино, и т.д. Вместо того чтобы размышлять, к какой сфере лучше приложить компьютерное зрение, стоит задать себе вопрос, в какой сфере потребности людей не удовлетворены. Может быть, речь идет о конкретной группе людей, например о российских мужчинах до 25 лет. И уже когда определитесь с проблемой, искать технологию, которая сработает для ее решения.

— В каком направлении стоит двигаться?

— Стоит смотреть на искусственный интеллект в целом — это намного более широкая сфера, чем компьютерное зрение. Cистемы построения логических выводов (reasoning systems, или программы, которые обучаются принимать сложные решения на основе методов дедукции и индукции) тоже пока еще слабо развиты. Компьютерное зрение неплохо развивается, но вот после того, как компьютер распознает изображение, он почти ничего не может сделать. Сейчас нет продуктов, которые позволяли бы сказать виртуальному помощнику в телефоне: хочу поехать в один классный ресторан в Италии, забыл название, но вот фотография оттуда, — и чтобы компьютер не просто определил, что это за ресторан, но и нашел в твоем календаре свободный вечер, заказал самый дешевый авиабилет до Италии на эту дату, забронировал столик и сверил расписание с твоей женой. Робот может по картинке распознать, что это за ресторан, но не может поставить его в контекст других твоих запросов. Уровень AI Reasoning вообще практически не развит — а значит, во всем, что происходит после распознавания картинки, огромное пространство для действий.

— Недавно беспилотный автомобиль в Калифорнии сбил пешехода. Могло ли компьютерное зрение помочь избежать такой ситуации?

— Если вы про тот случай в Калифорнии, когда велосипедист выскочил прямо из-за угла, то не думаю, что это проблема компьютерного зрения. Он вылетел реально быстро, и система контроля в автомобиле распознала его за долю секунды до столкновения. Можно ли возлагать вину за эту аварию на систему управления беспилотником? Возможно, надо приделать к автомобилю ракету, которая молниеносно поднимала бы его в воздух в таких случаях, но давайте посмотрим правде в глаза: если бы я был в тот момент за рулем, я бы сам врезался в человека. К сожалению, есть определенные пределы того, на что способна технология. Главный вопрос, который мы должны себе задавать, — произошла бы эта катастрофа, если бы за рулем сидел живой водитель? Если да, то никакое улучшение компьютерного зрения и ИИ не позволит предотвращать такие ситуации. Это уже область за пределами человеческих способностей. Компьютер, как и человек, может только увеличить скорость реакции во много раз, но не предвидеть опасность. Так что этот инцидент совершенно не означает провала ИИ. К сожалению, мы не можем уйти от реальности, в которой иногда происходят трагедии.

Как продаться в Google

— А что насчет разметки данных для ИИ? Многие называют ее одной из ключевых проблем, для которых нужно привлекать людей.

— В моей команде на сегодняшний день порядка 80 разметчиков данных для ИИ, но в целом у Google в распоряжении тысячи таких сотрудников. Частично это краудсорсеры, частично нанятые сотрудники, которые должны зарегистрироваться на сервисе и посвящать этой работе определенное количество часов в день. Очень много данных требует разметки, и речь далеко не только о компьютерном зрении. Некоторые из контрибьюторов размечают запрещенный контент на YouTube например. Вообще для этого тестируются модели на основе машинного обучения, но есть и живые проверяющие.

— Недавно Google запустил AYI Vision Kit — «умную» камеру, которая может сама распознавать объекты с помощью компьютерного зрения. Как вам кажется, к чему приведет такая популяризация этой технологии?

— Сейчас ИИ становится все более доступным даже в небольших гаджетах — так же, как это произошло с электроинжинирингом, а затем с программированием. Этот DYI-набор легко перепрограммировать на что угодно, так чтобы люди могли с ним играть и экспериментировать. Думаю, те, кто покупает этот продукт, не занимаются наукой или созданием новых продуктов на постоянной основе, но это по крайней мере заставляет их распахнуть сознание. Возможно, какие-нибудь школьники увлекутся этим и поступят в университет, потом пойдут работать в Google, станут профессорами и займутся реальными исследованиями.

— Каким должен быть стартап с использованием ИИ, чтобы его купил Google?

— Google покупает намного больше компаний, чем пишут в прессе. Многие из них — совсем небольшие стартапы, но их техническая экспертиза — мирового класса. И это самое главное — ведь Google лишь частично покупает компании ради технологий, а прежде всего — ради экспертизы. Но чтобы Google вас купил, стартап должен уже достичь уровня, когда он в чем-то меняет мир. Например, у него уже должно быть около 100 сотрудников и крупные клиенты, — впрочем, если вы достигли такого уровня, я бы рекомендовал вам не продаваться, а стараться взлететь самостоятельно.

Темы

AI Google IT акселераторы бизнес Витторио Феррари компьютерное зрение распознавание лиц технологии