Deepgram зарекомендовал себя как один из самых популярных стартапов в области распознавания голоса. Компания объявила о запуске Aura, своего нового программного интерфейса для преобразования текста в речь в режиме реального времени.
Aura сочетает в себе реалистичные голосовые модели искусственного интеллекта с низкой задержкой, что позволяет разработчикам в режиме реального времени создавать диалоговых ботов, которые могут, например, заменять специалистов по обслуживанию клиентов в кол-центрах.
Как сказал соучредитель и генеральный директор Deepgram Скотт Стивенсон, отличные голосовые модели появились уже давно, но они дороги и требуют много времени на вычисления. При этом модели с низкой задержкой, как правило, звучат как роботы. Aura от Deepgram сочетает в себе голосовые модели, которые звучат как человек, рендерятся чрезвычайно быстро и, как неоднократно отмечал Стивенсон, стоят недорого.
«Пользователям нужны голосовые боты с искусственным интеллектом, которые в режиме реального времени могут воспринимать то, что им говорят, понимать, генерировать ответ, и произносить его вслух», — сказал он. По его мнению, требуется сочетание точности, низкой задержки и приемлемых затрат, чтобы сделать такой продукт полезным для бизнеса, особенно в сочетании с относительно высокой стоимостью доступа к большим языковым моделям.
Deepgram утверждает, что цены Aura в настоящее время превосходят практически всех конкурентов и составляют $0,015 за 1 тыс. символов. Это не так уж далеко от цены аналогичного WaveNet от Google ($0,016 за 1 тыс. символов) и Polly Neural от Amazon (также $0,016 за 1 тыс. символов), но действительно дешевле. Отметим, что полный функционал бота от Amazon обойдется значительно дороже базовой версии.
На данный момент Aura предлагает более десяти голосовых моделей, все они были обучены с помощью набора данных, созданного Deepgram совместно с актерами озвучивания. Модель Aura, как и все другие модели компании, была обучена внутри компании.
Несмотря на то что иногда можно столкнуться со странным произношением, скорость — это то, что действительно выделяет Aura. Чтобы подчеркнуть то, как быстро ИИ генерирует ответы, Deepgram отмечает время, которое потребовалось модели, чтобы начать говорить, (обычно это менее 0,3 секунды), и время, которое потребовалось ИИ, чтобы закончить генерацию ответа (что обычно составляет чуть менее секунды).
До этого промпт-инженерия казалась многообещающей технологической областью на фоне бума генеративного искусственного интеллекта. Инженеры запросов для ИИ пишут текст, который может дать оптимальные результаты с помощью таких инструментов, как ChatGPT, но теперь выяснилось, что ИИ можно обучить выполнять и эту работу. Исследователи из VMware, компании, занимающейся облачными вычислениями, обнаружили, что большие языковые модели способны самостоятельно писать и «оптимизировать свои собственные запросы».