Трудности перевода: что не так с голосовыми помощниками

Трудности перевода: что не так с голосовыми помощниками
Фото: Maskot/Getty Images

Аудитория голосовых ассистентов в России растет, и это объяснимо: голос — один из самых удобных способов взаимодействовать с устройствами. Тренд на цифровизацию общения подстегнула пандемия. Согласно исследованию, две трети россиян стали чаще взаимодействовать с роботами с марта 2020 года. Но до настоящего прорыва еще далеко. Почему? Объясняет Никита Семёнов, директор ML-департамента центра искусственного интеллекта МТС.

Я не самый удобный клиент для чат-ботов и голосовых ассистентов. Мои вопросы редко попадают в список часто задаваемых, поэтому цифровые помощники зачастую отвечают невпопад. Ботов, как правило, учат давать консультации по определенным темам: подключению и отключению услуг, описанию продуктов, условиям доставки и другим. Количество тем всегда зависит от специфики и масштабов бизнеса. По статистике, знание ботом 20% основных тематик позволяет ему закрывать 80% запросов пользователей. Все остальные случаи попадают в категорию нестандартных ситуаций, когда цифровой ассистент не знает, что ответить. Его этому не учили. А клиенту кажется, что умный помощник не такой уж и умный.

Почему бот не всегда понимает человека?

На этот вопрос нет однозначного ответа. Может быть, цифровой помощник неправильно спроектирован с точки зрения логики сценариев общения. Ответы любого бота основаны на реальных диалогах службы поддержки с пользователями: например, если клиент просит подключить ему какую-либо услугу, нужно сначала провести идентификацию пользователя — подтвердить, что звонит именно владелец SIM-карты. Потом — проверить, доступна ли ему услуга, потом найти информацию о том, как ее подключить. Такая последовательность действий и называется сценарием коммуникации. Для любого бота люди готовят такие сценарии диалогов на разные темы, в их основе лежит бизнес-логика. Когда сценарии написаны нелогично, бот может отвечать невпопад. Например, если на вопрос клиента, где купить новый iPhone, бот отвечает: назовите ваш номер телефона, — это звучит странно. А на самом деле бот хочет авторизовать пользователя по номеру телефона, но человеку это не очевидно, и он считает, что бот его не понял.

Также на понимание ботом человека влияют данные, на которых обучалась нейросеть, — проще говоря, насколько хорошо ИИ выучил русский язык: слова, которые часто используются в конкретной отрасли. Или, если данных было недостаточно, алгоритм может не знать значения некоторых слов, профессиональных терминов или не учитывать региональные особенности языка. Например, в разных регионах России есть свои фирменные словечки, которые используют только местные жители. В Москве говорят курица и гречка, в Санкт-Петербурге — кура и греча. А еще в лексиконе петербуржцев есть бадлон (водолазка) и парадное (подъезд). Тот, кто не жил в Сибири, никогда не догадается, что такое мультифора, — это файл для документов. Если в лексиконе бота нет этих слов (нейросеть этому не научили), он не поймет смысл запроса. Тоже самое относится к терминам, свойственным для какой-то конкретной сферы: например, бот, созданный для медицинского центра, может не знать слова баланс, услуга или не понять смысл фразы «почему у меня списали деньги». Точно так же, как банковский бот не знает медицинских терминов.

Кроме стандартных языковых моделей и общего знания языка, бот должен понимать специфику бизнеса, знать, как клиенты обычно формулируют свои запросы, выучить основные понятия. А для этого нужны примеры диалогов на заданную тему — в machine learning это называется обучающей выборкой: раньше требовались миллионы диалогов. Современные алгоритмы могут учиться на тысячах примеров общения, но их все равно нужно где-то взять.

Может быть и так, что у цифрового помощника вообще нет информации о вопросе. Например, в компании запустилась новая маркетинговая акция, но базу знаний чат-бота этими данными не дополнили. Поэтому он никогда не поймет клиента, который формулирует запрос так: «Я трясу дерево, но ничего не происходит» (по условиям акции нужно было потрясти цифровое дерево в мобильном приложении и получить бонус).

Как можно решить этот вопрос? Постоянно дообучать алгоритм и регулярно загружать в нейросеть новые клиентские сценарии — разные ситуации, в которых пользователю может понадобиться помощь, или примеры диалогов с клиентом по новой теме. Например, когда запустился продукт, появилась дополнительная опция или началась рекламная акция, нужно «рассказать» о них чат-боту, чтобы он мог отвечать на вопросы пользователей.

Проблемы миграции

Вторая проблема ботов в том, что решения плохо масштабируются. Нельзя взять цифрового ассистента из телеком-отрасли, немного его доработать и получить чат-бот для производителя сельхозоборудования. Каждый раз нужно начинать разработку заново, потому что пользовательские сценарии, продукты и специфика бизнеса совершенно разные. Бот телеком-оператора не сможет проконсультировать клиентов компании, которая производит сельскохозяйственное оборудование: термины, темы общения, бизнес-логика слишком сильно разнятся. Один бот должен знать, чем отличается трактор John Deere от «Беларуса», и в первую очередь выяснить, какое оборудование интересует клиента, а другой — понимать условия подключения международного роуминга в разных странах, тарифы оператора связи и в начале разговора уточнить персональные данные пользователя. Именно поэтому, создавая чат-бот для конкретной компании, нужно обучать нейросеть профессиональным терминам и создавать сценарии разговора с клиентами. Для бизнеса это дополнительные затраты и время на разработку. Для пользователей это означает, что цифровые помощники прогрессируют медленнее, чем нам хотелось бы.

Решение этой проблемы упирается в создание так называемого общего искусственного интеллекта, который сможет учиться быстро и на небольшом количестве примеров, а еще выявлять взаимосвязи между разными понятиями. Все текущие решения (в том числе чат-боты и голосовые ассистенты) подходят под определение слабый ИИ — это класс алгоритмов, запрограммированный на решение одной конкретной задачи. Для этого нужно запомнить правильные ответы на большое количество вопросов и в нужное время выдать правильный. Общий ИИ должен обладать представлениями о реальности, уметь планировать, иметь способность к самообучению, целеполаганию, принятию решений. Общий ИИ пока недостижим, и говорить о сроках его создания рано: невозможно спрогнозировать, появится он через 10 лет или через 50. Один из современных трендов в этой области — попытка научить машины обучаться на небольшом числе примеров. Если человеку достаточно один раз показать, как нужно выполнять упражнение, он поймет сразу. Нейросетям одного примера пока недостаточно, но концепция few shot learning (обучение на небольшом числе примеров) может значительно ускорить обучение алгоритмов, что скажется на скорости создания коммерческих продуктов.

Безопасность и конфиденциальность. Это самая распространенная претензия пользователей к умным устройствам. Даже если речь идет об использовании колонки разными членами семьи, вопрос безопасности важен. Голосовой интерфейс по команде, например «прочти мою почту», может дать доступ к чувствительным личным данным — расписанию, электронной почте — другим людям, так как не различает голоса. Более того, многие пользователи боятся хранить данные в облаке из-за возможности утечек (а именно на облачные сервера передается вся история взаимодействия пользователя и цифрового ассистента). Я считаю это важным барьером для более массового использования умных помощников и интеллектуальных устройств.

Боты из будущего

Голос — очень удобная форма ввода информации: людей не нужно этому специально учить. Голосовой ввод подходит для разных случаев (если человек едет за рулем или занимается бегом) и для широкого круга людей (например, для ребенка, который еще не умеет писать, или для незрячего человека). Но ключевое преимущество в том, что человек говорит гораздо быстрее, чем пишет: мы набираем на клавиатуре 40 слов в минуту, а произносим около 150. При этом для голосового ассистента перевод голоса в текст не составляет труда: алгоритм справляется с этой задачей за 0,4 – 0,6 секунды, — это очень быстро.

Сейчас пользовательские интерфейсы заточены только на голос, но будущее умных ассистентов мультимодальное. Цифровые помощники будут общаться с людьми разными способами. Например, уже сейчас автомобильный ассистент в некоторых моделях машин активируется не по голосовой команде, а в момент, когда водитель смотрит в камеру, расположенную в определенном месте на торпеде автомобиля. Нейросеть определяет положение глаз и таким образом понимает, что у водителя есть вопрос к голосовому помощнику.

Другой пример: клиент пришел в салон связи и хочет выяснить, чем один смартфон отличается от другого. Пользователь обычно не произносит полностью название модели. Как правило, он спрашивает, а чем этот телефон отличается от того, и показывает на нужные гаджеты рукой. Камера распознает, куда указывает покупатель, и понимает, какие именно девайсы он имеет в виду, после этого бот выдает ответ — текстом на цифровом дисплее. Я уверен, что такие решения скоро появятся в ретейле.

Пользователи будут получать ответы от бота в том формате, в котором им удобно: допустим, сделав запрос умной колонке, получать информацию в виде текстового сообщения в приложении на смартфоне или в формате нужной ссылки в push-уведомлении. Клиентский опыт будущего — сквозной и бесшовный, ассистент будет органично сопровождать пользователя в разных жизненных ситуациях.

Третий тренд, который я бы выделил, — персонализация персональных ассистентов. Это не тавтология: сегодня цифровые помощники «персональны» лишь формально и исполняют распознанные голосовые команды, не определяя по голосу профили разных пользователей.

Известны случаи, когда гости первых владельцев умных колонок Amazon говорили что-то вроде «Алекса, запусти в два часа ночи самый жёсткий death metal на максимальной громкости», улучив момент, когда хозяев нет рядом. Подобные инциденты можно предотвратить, запрашивая в сомнительных ситуациях пароль, но в идеале тут нужно реализовать полноценную авторизацию по голосу. У этой технологии есть и коммерческий аспект: скажем, покупки онлайн можно будет совершать голосом, если обеспечить юридически значимую фиксацию биометрии умными колонками.

Если несколько членов семьи совместно используют один и тот же голосовой интерфейс, бот должен понимать, кто именно с ним сейчас общается, учитывать персональные предпочтения каждого, корректировать соответствующим образом ответы — чтобы не цитировать, скажем, медицинскую энциклопедию в ответ на вопрос маленького ребенка, откуда берутся дети. Сейчас виртуальные помощники заточены на одного пользователя, в них заложен один сценарий.

Я думаю, в течение года ассистентов ждет апгрейд: они будут собирать информацию о профайлах разных членов одной семьи, подстраиваться под предпочтения и запросы, ставить любимую музыку. Эта задача лежит в области проектирования ассистента, по сути — это как объединить несколько ботов в одном. Я думаю, что мы увидим подобные решения на рынке в течение ближайшего года.