Компания ElevenLabs, известная своими технологиями синтеза речи, запустила новую функцию Chat Mode. Это текстовый режим для ее разговорных ИИ-агентов. Запуск состоялся 19 августа и знаменует собой важный шаг для компании, которая ранее фокусировалась в основном на голосовых решениях. Теперь разработчики и бизнес могут развертывать агентов, взаимодействующих исключительно с помощью текста.
kuu akura/Unsplash
Проблема голосового ввода заключается в том, что он не всегда удобен. Например, при вводе конфиденциальной информации, такой как адреса электронной почты или номера заказов, или в ситуациях, когда говорить вслух неуместно. Chat Mode может предоставить текстовую альтернативу. Это повышает точность и комфорт для пользователя, расширяя сценарии использования разговорного ИИ.
Новые агенты являются мультимодальными. Они могут понимать как устные, так и письменные запросы, находить нужные ответы и естественно реагировать в режиме реального времени. Компании могут развернуть такого чат-агента за считанные минуты с помощью SDK, API или готового виджета. Агенты легко интегрируются с существующими системами, такими как CRM, календари и платежные сервисы.
Решение подходит для электронной коммерции, где агенты могут консультировать покупателей, и для обучения персонала, имитируя реальные сценарии. ElevenLabs предлагает программу грантов для стартапов, предоставляя бесплатное использование технологии на 3 месяца на сумму более $4 тыс. Стоимость для бизнес-планов начинается от $0.08 за минуту.
Платформа поддерживает более 30 языков с автоматическим определением и переключением. Она позволяет использовать любую ведущую языковую модель, будь то GPT-4, Claude или собственная разработка клиента. Благодаря технологии RAG (Retrieval-Augmented Generation), агенты могут использовать внутреннюю базу знаний компании, предоставляя точные и актуальные ответы на основе документов, FAQ и URL-адресов.