О пользе big data для бизнеса говорят часто и много. Но так ли это на самом деле? Руководители и менеджеры российских компаний поделились своим опытом использования больших данных на конференции Big Data, Meet Big Brother! (ее организовал венчурный фонд Sistema_VC). Inc. записал для вас самое важное.
Почему data science и big data стали популярны именно сейчас? Где большие данные реально принесли пользу, а где оказались просто хайпом? Есть ли этическая грань в использовании big data и нужна ли она вообще? И что будет с данными в ближайшем будущем? Вот круг вопросов, о которых мы сегодня с вами поговорим.
Игорь Волжанин
СЕО компании DataSine (модератор)
Участники встречи
Игорь Волжанин
СЕО компании DataSine (модератор)
Алиса Чумаченко
основатель и CEO, GOSU Data Lab
Евгений Исупов
директор по монетизации данных, Тинькофф Банк
Роман Нестер
основатель и СЕО, Segmento
Леонид Ткаченко
директор департамента big data, МТС
Чудес не бывает
Нестер:
Мне кажется, реальное применение больших данных в бизнесе случилось благодаря скучным вещам: оптоволоконным кабелям и быстрому интернету. Это позволило системам очень быстро обмениваться информацией, обрабатывать ее и применять. Вторая причина — накопилось огромное количество данных в самых разных вариантах (взять хотя бы записи пациентов в медицинских клиниках).
Ткаченко:
Мы 3 года занимаемся big data. За это время были протестированы более 100 разных идей, и только малая часть из них оказалась успешной. Если кто-то в компании уже пробовал решить задачу методами не big data, а обычным BI, SQL-запросами или в Excel, — с большой вероятностью и мы не окажемся лучше. Например, МТС всегда пыталась построить модель оттока клиентов, и была в этом очень успешна. Мы попробовали сделать лучше — и ничего особенного не вышло. Другой пример: до нас сотрудники МТС тщетно пытались сделать модель, которая предскажет переход клиента на более дешевый тарифный план (и позволит компании удержать его от этого шага). Мы тоже попробовали решить эту задачу, но не получилось. Поэтому искать чудо в технологиях big data не надо. Да, это дает больше сил, но сделать что-то революционно новое пока сложно.
Исупов:
Когда мы говорим о big data, нужно различать 2 разных направления. Первое – когда мы добавляем какие-то новые данные, которых раньше не имели. Второе – это математика. Все приросты сейчас мы получаем за счет новых данных либо фич-инжиниринга, но не математики как таковой, — она уже собирает конечную модель.
Бизнес проверяет кейсы (но везет не всем)
Чумаченко:
Вся индустрия big data, искусственного интеллекта и machine learning сейчас находится на той стадии, когда бизнесы проверяют кейсы. Если кейс работает — интегрируем внутрь, ждем и смотрим, увеличится ли у нас life-time value. Затем считаем косты на внедрение и автоматизацию всей этой истории, после чего понимаем — стоило оно того или нет. Весь мир сейчас делает именно это. Мы увидим, наверное, в ближайшие 1—1,5 года в разных индустриях и секторах рынка очень много реально работающих кейсов, которые себя окупают и заслуживают, чтобы их интегрировать. Пока же мы только пробуем.
В гейминге уже есть несколько кейсов, которые работают и будут развиваться. Во-первых, это умные боты: они учатся на наших действиях и на всем, что происходит в игре. Вторая история — персонификация: мы можем идентифицировать игрока (это очень важно для проверки аккаунтов).
Нестер:
А мне кажется, мы гораздо больше увидим неработающих кейсов. По прогнозу Gartner, 68% компаний, начавших что-то делать с большими данными, ждет неудача (позже прогноз даже ухудшили до 80%). А все потому, что big data — это хайп и инициативы очень часто появляются там, где им совсем не место.
На самом деле, большие данные чаще всего позволяют лишь что-то немного улучшить. В то время как многие позиционируют их как нечто могущее полностью изменить бизнес компании. При этом есть отрасли, в которых big data реально работают в полную силу. Например, рекламная индустрия сейчас переходит на принцип работы в реальном времени — система сама решает, когда и какую рекламу показать и сколько нужно заплатить за ее показ. Человек уже это сделать не сможет. Пройдет немного времени, и большинство рекламных агентств, а также людей, которые планируют рекламу, скорее всего, заменят машинами, — так быстрее, а значит, и эффективнее.
Один из наших клиентов — «Лаборатория Касперского» — в какой-то момент внедрил у себя систему под названием Visual IQ. Она прогнозирует на основе больших данных, сколько денег и на какие рекламные каналы нужно потратить в ближайший период. По сути, она определяет бюджет, — чем так любят заниматься менеджеры в рекламе, — без участия человека. По другую сторону находится Segmento, как одна из площадок, которая автоматически достигает поставленных целей. Получается такой замкнутый процесс — думаю, к такой работе в рекламной индустрии в конечном итоге все и придет.
Ткаченко:
У МТС — триада стратегий, связанных с big data. Первая — накопление всех знаний об абонентах и клиентах. Неважно, понимаем мы, как это можно использовать или нет, — технологии хранения данных достаточно дешевы, чтобы хранить их все валом. Вторая — дать доступ к этим данным статистам и специалистам компании, чтобы они попытались что-то из них слепить. Третья стратегия — построение новых бизнесов, основанных на больших данных. Причем речь идет о максимальной персонализации — мы должны знать все о вас: во сколько встали и пошли в душ, есть ли у вас собака, ходите ли вы на работу пешком, женаты вы или нет… Мы как будто наблюдаем и прослушиваем, но на самом деле нет — это запрещено.Обладая полнотой таких знаний, можно монетизировать их лидами для продажи наших услуг.
Этика данных: мы будем жить словно голые
Ткаченко:
Что будет дальше с использованием big data коммерческими организациями, пока непонятно. Законодательство мигрирует в ту сторону, где человек будет собственником данных: он начнет продавать либо не продавать к ним доступ. Возможно, это будет делать государство, и в этом тоже есть и плюсы, и минусы: о нас станет известно еще больше, но улучшится безопасность жизни.
Вне зависимости от того, куда приведет регуляторный сценарий, жизнь людей станет прозрачной, какие-то скелеты в шкафу держать будет сложно. Или же тем, кто видит наши данные, нам придется платить, чтобы они их как-то скрывали. Мы будем жить словно голые.
Чумаченко:
Однозначно,приватные данные будут регулироваться, причем серьезно. Если говорить о России, то она, скорее, пойдет по китайскому варианту развития.
Сейчас рынок данных находится в состоянии турбулентности: впереди еще много и приятных, и неприятных сюрпризов со стороны органов регулирования. Всем (а особенно корпорациям, которые эти данные хранят) придется непросто.
Нестер:
Мне кажется, мы сейчас на грани явления, которое можно назвать технопаникой. Все больше людей начинают бояться, что про них что-то узнают. При этом они не до конца понимают, чем ценны их данные и несут ли они какой-то риск. Людям это просто очень сильно не нравится. Но я еще не встречал ни одного человека, который бы перешел на платную почту только потому, что Gmail анализирует содержание переписок.
Исупов:
Тут вопрос: в какой форме эти данные шерить? Если кто-то нехороший посмотрит и использует данные против тебя, — то, конечно, нет. А если это позволит создавать крутые сервисы — то да.
Чумаченко:
Мы еще лет 10 назад на конференциях говорили: «Ребята, все, что вы вводите в интернете, — публичная информация». Сейчас мы на новую ступень перешли: все, что мы делаем, будет если не публичным, то проданным-перепроданным.
Что дальше? Закрытые экосистемы и повсеместный скоринг
Нестер:
Мы так много говорим про большие данные, как будто это самоценность. На самом деле это просто один инструмент — на его базе можно сделать кучу классных сервисов, компаний, проектов, идей. Вот те, кто будут создавать такие сервисы и решать конкретные проблемы, станут расти очень быстро. Самое главное — идти не от данных. Нужно найти какую-то потребность и собирать инструменты, которые эту потребность решат. Мне кажется, таких компаний и предпринимателей будет становиться все больше и больше.
Чумаченко:
Сейчас данных действительно много. Но будет 2 типа возможностей их достать. Часть компаний начнет держать их закрытыми, как наши банки, они не любят делиться друг с другом данными. В любом случае, появятся закрытые экосистемы: большие корпорации смогут держать данные и создавать на их основе внутри себя различные проекты. Также появятся открытые экосистемы они станут превращаться в платформы. Многие компании, не обладая ресурсом для использования своих данных, захотят отдать их и заработать на этом, — откроют доступ, а мы будем пользоваться и радоваться.
Нестер:
Все, что происходит с вами в интернете, — отразится на всей вашей жизни. Банки начнут точнее предсказывать ваши шаги и стараться прокредитовать вас через сайты, приложения и личного помощника, — он появится в вашем телефоне или на любом другом девайсе через 5-10 лет.
Кстати, финтех— очень хороший пример, потому что скоринг будет улучшаться, пока не станет идеальным. В результате люди, которым банки по разным причинам то отказывали, то нет, теперь совершенно точно не получат денег. Крупные вузы уже решают на основе больших данных, принимать документы от абитуриента или нет. Это то, что приносит в нашу жизнь скоринг, — он скоро станет повсеместным.
Момент риска
Чумаченко:
Все аналитики говорят, что большие данные повлияют в основном на средний класс образования. Люди совсем дешевых профессий не пострадают — их труд все равно будет дешевле использования машины или робота. И соответственно, не пострадают представители топовых и креативных профессий.
Если про ближайшее будущее говорить, то соглашусь с прекрасным и веселым футурологом Рэймондом Курцвейломом: мы все в конечном счете станем операторами искусственного интеллекта.
Ткаченко:
Искусственный интеллект догонит человеческий к 2030-2040 годам, после чего станет двигать технологический прогресс. Поскольку он опередит человека, мы будем не в состоянии понять, как работает то, что он придумал. Но он будет придумывать дальше технологические рывки. И отдельный вопрос — этический: не станет ли он работать против нас? Насколько мы сможем его контролировать? Хозяева жизни на земле сейчас, конечно, мы с вами. Но в какой-то момент этим может стать кто-то другой — этот момент риска в принципе не так далеко от нас.