Каждый год мы всей семьей выбираемся на пикник и делаем традиционное семейное фото. Каждый раз этот снимок бывает испорчен: то у тети из головы торчит фонарь, то вспышка выхватывает какого-то незнакомца на заднем плане. Фонарь можно легко стереть в фотошопе: достаточно нажать пару клавиш. Компьютерные алгоритмы проанализируют фотографию, определят, как бы она смотрелась без фонаря, и готово. Это простой пример, но он наглядно показывает, как работают алгоритмы машинного обучения и что нас ждет в ближайшем будущем.
Новые технологии вскоре будут не только исправлять и дополнять фотографии. Они будут подсказывать, что (или кого) мы видим перед собой, и предугадывать реакцию людей на определенные ситуации. Алгоритмы распознавания, которые уже сегодня способны проанализировать иллюстрацию и понять, что на ней изображена, скажем, теннисная ракетка, вскоре будут интегрированы в пользовательские устройства. Более того, их станут использовать в корпоративных системах контроля сотрудников.
В течение ближайших двух лет такие технологии станут частью нашей жизни. Pinterest недавно запустил Lens — что-то вроде приложения Shazam, только оно распознает не музыку, а предметы; приложение Blippar обладает схожими возможностями. Новый смартфон Galaxy S8 от Samsung позволит использовать встроенную камеру для поиска и распознавания визуальных объектов. Facebook, Apple и Google умеют автоматически генерировать фильмы из загружаемого вами контента. В будущем алгоритмы помогут смешивать видеозаписи ваших коллег или друзей в соцсетях с вашими собственными записями и автоматически создавать видеофильмы корпоративной вечеринки или семейного выезда на природу.
Исследователи из лаборатории информатики и искусственного интеллекта MIT разработали алгоритм, предсказывающий взаимодействие людей. Достаточно навести камеру — и технология предскажет рукопожатие, объятие, поцелуй или полный игнор. В той же лаборатории разработали и натренировали самообучающуюся систему, способную распознавать действия человека настолько хорошо, чтобы генерировать полноценные видео на основе отдельных изображений. С помощью фотографии дрессировщика собак или наездника верхом на лошади компьютер автоматически создаст соответствующее видео (к примеру, лошади, прыгающей через препятствие, — со зрителями, с другими животными, на фоне деревьев, газона), и оно будет выглядеть живо и убедительно. В самом ближайшем будущем нас ждут умные программы, способные предугадывать, например, понравится ли детям новый вкус чипсов или как мотоциклисты старшего поколения отреагируют на угрозу аварии.
В ближайшее время машинное обучение разовьется достаточно, чтобы предсказывать действия человека исходя из его поведения в прошлом. Это облегчит наблюдение за большим скоплением людей на мероприятиях, улучшит контроль за поведением сотрудников и за покупателями.
К тому времени будут созданы алгоритмы, могущие отслеживать не только действия, но и действующих лиц, сопоставляя внешность с данными социальных сетей и мобильных приложений. «Умные» камеры определят потребителей, готовых обратиться к продавцу, и дадут ему ключевую информацию о покупателе в режиме реального времени. С позиции конфиденциальности подобные технологии заставят нас чувствовать себя беззащитными. С другой стороны, приложения будущего помогут нам лучше взаимодействовать друг с другом. Это принесет человечеству гораздо больше пользы, чем возможность подправить неудачную семейную фотографию.
Читайте нас в Facebook, Twitter и ВКонтакте.