Разобраться • 11 ноября 2024
Как искусственный интеллект помогает в корпоративных коммуникациях
Как искусственный интеллект помогает в корпоративных коммуникациях
Текст: Дмитрий Денисов, директор продукта DION (Холдинг Т1)
Фото: Luke Southern, Unsplash
Пандемия стала заметным толчком для развития сферы корпоративных коммуникаций. Тогда на первый план вышли адаптивность и гибкость, а гиганты рынка стали говорить о большом шаге на пути к инклюзивности. Один из ключевых факторов — переход на онлайн-платформы с видеоконференциями, чатами и возможностью обмениваться файлами. Несмотря на то что ограничения давно сняты, такие инструменты до сих пор пользуются повышенным спросом и активно дорабатываются. Как подобные технологии могут облегчить деловое общение и зачем в платформы для онлайн-коммуникаций интегрируют искусственный интеллект, разобрался для Inc. директор продукта DION (Холдинг Т1) Дмитрий Денисов.
Один из главных сценариев использования ИИ в отечественных платформах корпоративных коммуникаций — улучшение качества звука и картинки во время видеоконференций. Софт с помощью нейросетей отделяет голос говорящего от окружающих шумов и гасит последние. В зависимости от датасета, на котором обучалась модель, алгоритмы могут убирать не только монотонные помехи, например шум машин или гудение стиральной машинки, но и более резкие: детский плач, собачий лай, поворотники в автомобиле.
Разработчики постоянно обновляют модели, добавляя в них различные варианты посторонних звуков и человеческих фраз, чтобы можно было разобрать речь собеседника, даже если он работает в офисе открытого типа, где сотрудники не изолированы друг от друга. Поэтому исследования и качественная обратная связь от пользователей играют ключевую роль в совершенствовании UC-платформ (англ. Unified сommunications, унифицированные коммуникации, — технология, предполагающая сочетание голосовых коммуникаций, средств совместной работы и обмена сообщениями. — Прим. ред.).
Во время пандемии многие компании перешли на дистанционный формат работы, но даже после снятия ограничений он не потерял актуальности. Большая часть встреч и сегодня проходит онлайн, в видеоконференциях участвуют сотрудники из самых разных уголков планеты. При этом им очень важно видеть лица друг друга. Однако не всегда участники встреч могут подключаться в формальной бизнес-обстановке, а это имеет значение, особенно когда речь идет о важных звонках с партнерами и заказчиками.
Отсюда крайне востребованная область применения ИИ — размытие или замена фона на видео, маски и фильтры, автоматическая ретушь лица. Встроенные в платформу алгоритмы машинного зрения выделяют на видео силуэт человека, позволяя преобразовывать остальную часть кадра. Обработка данных происходит прямо на устройстве, что повышает ее скорость и безопасность. Подобная функциональность не влияет на эффективность конференции напрямую, но качественно улучшает пользовательский опыт.
Косметическим исправлением видео работа нейросетей не ограничивается. В ближайшей перспективе ИИ сможет выступать своего рода коучем по ораторскому мастерству: такая функциональность уже реализована в ПО для контакт-центров, и ее появление в ВКС-платформах (ВКС — видео-конференц-связь. — Прим. ред.) — вопрос времени. Алгоритмы будут анализировать речь спикера (тон, экспрессию, слова-паразиты) и картинку, предлагать выступающему говорить тише или громче, сменить интонацию, ускориться или замедлиться, добавить эмоций и даже выпрямить осанку — такие технологии не только позволяют улучшить восприятие речи спикера, но и даже заботятся о его здоровье.
Отечественные разработчики не исключают, что в долгосрочной перспективе нейросеть в UC-платформах будет интегрирована с технологией дополненной реальности (AR), что расширит восприятие и возможности для взаимодействия собеседников. Только представьте: вместо вас на онлайн-конференциях будут присутствовать аватары, которых отличить от реальных людей по мере совершенствования алгоритмов станет все труднее. Это потребует дополнительных мер защиты — например, специально обученные ИИ-модели будут распознавать хакерские дипфейки.
Дипфейк — это созданное с помощью ИИ видео, на котором реалистично изображен человек. Неслучайно в 2023 году термин едва не стал словом года по версии словаря Merriam-Webster: люди беспокоятся о перспективах обмана и мошенничества с использованием правдоподобных аватаров, сгенерированных нейросетями.
Получается, искусственный интеллект в руках злоумышленников создает угрозу для безопасности. Однако он же и поможет бизнесу с этой угрозой бороться. Так, в будущем разработчики UC-платформ смогут встроить механизмы биометрической аутентификации — они помогут удостоверится, кто присоединился к конференции. Создатели также будут использовать в своих продуктах алгоритмы, способные заметить признаки подмены видео и уведомить пользователей о возможном дипфейке.
Помимо этого, нейросети смогут следить за сохранностью корпоративной тайны. Если во время разговора, в чате или письме пользователь использует ключевые слова, связанные с конфиденциальными сведениями, платформа сделает предупреждение. Причем если раньше поиск осуществлялся по определенному набору терминов и выражений, то теперь за счет особенностей больших языковых моделей алгоритмы смогут лучше понимать контекст и, например, считывать метафоры.
Существует множество моделей — как open source, так и от крупных игроков рынка, — которые отвечают за транскрибирование речи. В современных российских решениях эффективность перевода записи в текст превышает 90%, причем если раньше алгоритмы могли обрабатывать только готовую запись, то сегодня нейросети способны составлять текст параллельно с речью выступающего.
Большая проблема технологии — трудности с распознаванием узкопрофильных терминов, профессионального жаргона и сленга. Но компании работают над решением этой задачи: разработчики постоянно дообучают модели на новых датасетах, содержащих необходимые слова. Это занимает время: чтобы обучить модель, сперва данные должны обработать люди, вручную транскрибируя огромные массивы текста. Чем больше различных вариантов произношения одного термина будет в датасете, тем выше эффективность нейросети после обучения.
Перспективы технологии можно разделить на несколько основных направлений. Первое — развитие в сторону онлайн-субтитров. Такой подход не просто упрощает работу людям с нарушениями слуха, но и позволяет пойти на шаг дальше — к моментальному переводу слов спикера на несколько языков. Даже если человек имеет опыт работы с иностранными партнерами и знает язык, хорошо обученные нейросети могут лучше понимать контекст и распознавать речь, например, с сильно выраженным акцентом.
Более того, ИИ-алгоритмы способны интегрировать и синхронизировать визуальные элементы, которые часто сопровождают выступления или обсуждения (например слайды или графики), с переводом. Разработчики развивают и эту возможность, чтобы интеграция содержания изображений и текста была более успешной и точной.
Второе направление — использование транскрибированного текста конференции для определения тайм-кодов, создания резюме встречи и контекстных подсказок. Возможности языковых моделей развиваются с каждым годом, нейросеть может анализировать текст, делать из него связный рассказ, выделять ключевые тезисы, оформлять в электронное письмо — так UC-платформа постепенно становится для человека личным секретарем.
Резюме встречи полезно не только в ситуации, когда конференция прошла давно и необходимо освежить в памяти основные тезисы. Использование интеллектуального помощника позволяет сотруднику присутствовать на нескольких конференциях сразу — и иметь представление о ходе обсуждения и выводах без необходимости пересматривать запись. ИИ может рассказать, какие вопросы успели поднять за время, пока участник встречи отходил встретить курьера или вынужден был отключиться из-за внезапных проблем со связью.
Более того, ИИ сам может становиться собеседником. ChatGPT это всем доказал, но использовать его многие компании не могут по соображениям безопасности. Поэтому UC-платформы разрабатывают собственные модели. Они могут, например, отвечать аналитикам и разработчикам на технические вопросы, выступая в роли посредника между человеком и базой знаний компании. Или помогать с FAQ: оформлением справок, заявлений на отпуск, поиском контактов другого сотрудника.
Но это лишь малая часть того потенциала, который российские платформы могут раскрыть благодаря ИИ. Современные решения часто удовлетворяют сразу несколько потребностей бизнеса: видеоконференции, переговоры и вебинары, мессенджер и файлообменник, календарь и электронная почта. Умный помощник может обернуть эту экосистемность на пользу человеку.
В перспективе произойдет синтез всех нейросетевых сервисов платформы в единого «второго пилота» или ИИ-секретаря, который сможет использовать контекст и выполнять задачи на стыке разных сервисов. Например, организовывать конференцию, самостоятельно направляя всем участникам письмо с приглашением, а затем — запись встречи, краткое резюме и необходимые файлы. Или автоматически подсвечивать в чатах контакт, которому во время звонка спикер пообещал отправить файл. Система сможет анализировать триггеры (например сообщение «файл скину позже» в чате между коллегами) и грамотно их отрабатывать, напоминая сотруднику про какое-то действие или совершая его самостоятельно.
Одним из перспективных направлений развития для UC-решений отечественные разработчики видят вайтборды, или онлайн-доски. Объединение разных медиумов и инструментов внутри одной платформы, а также интеграция в них искусственного интеллекта позволяют сделать совместную работу максимально бесшовной и эффективной.
Например, ИИ может прямо на доске составить бизнес-план по имеющимся вводным или описать принципы работы определенной технологии, чтобы заполнить пробел в архитектурной схеме. По сути, пользователю станет доступно все многообразие сценариев использования, которые есть у современных чат-ботов. Скорректировать текст, изменить расположение элементов в блок-схеме, сгенерировать картинку-пояснение или другой контент — все по одному запросу. А в будущем ИИ сможет переводить тяжелые технические карты на язык, понятный неподготовленным пользователям, — и сразу рассылать информацию тем, кому она необходима.
Помимо генерации идей и передачи смыслов, ИИ может использоваться для предупреждения ошибок. Для этого нейросеть анализирует представленный на доске контекст и следит за тем, чтобы новые данные не нарушали общую логику. А также корректирует грамматические ошибки — это может быть важно, если доску затем необходимо показать клиентам или партнерам. Кстати, с этим нейросети тоже могут помочь, например составить презентацию на основе всех сведений, которые представлены на вайтборде. Или собрать из разрозненных элементов прототип интерфейса для будущего приложения, сразу сделав все кнопки интерактивными.
Один из главных барьеров, связанных с развитием ИИ, — невысокий уровень доверия к технологии. Люди боятся за свои данные, не знают о реальных возможностях и надежности нейросетей. При этом инструменты на базе ИИ могут использоваться и для повышения кибербезопасности онлайн-встреч в целом, а также для постоянной работы над поиском уязвимостей UC-платформы. Чем активнее производители внедряют такие функции в свои продукты, тем больше осведомленность о них и тем охотнее ими пользуются.
Если двадцать лет назад представить на дороге беспилотный автомобиль было невозможно, в том числе из-за существующих в обществе психологических барьеров, то сегодня такие машины активно тестируются и перевозят пассажиров в разных городах по всему миру. Искусственный интеллект может совершить революцию в корпоративных коммуникациях и общении в целом — и российские разработчики уже сделали первый шаг в сторону этих изменений.