Калифорнийский стартап Sesame AI представил новое семейство голосовых помощников на основе искусственного интеллекта (ИИ). В отличие от идеально звучащих Siri или Alexa, новая система имитирует поведение реального человека в разговоре. Она делает паузы, меняет темп речи, может смеяться, ошибаться и исправлять собственные оговорки.
Фото: Freepik
Ключевое отличие новых нейросетей от стандартных ИИ-ассистентов — одновременная обработка текста и аудио. Это позволяет учитывать тонкости живой речи. В основе помощника лежит нейросеть Google Gemma и алгоритм-декодер для генерации аудио. Для обучения последнего исследователи собрали набор из миллиона часов аудио. Разработчики создали три версии разной мощности: Tiny, Small и Medium; каждая способна обрабатывать около двух минут аудио за раз.
При прослушивании коротких диалогов люди не смогли отличить речь реального человека и нейросети Sesame. Система особенно впечатляет тонкими элементами коммуникации – может подхватить смех собеседника или извиниться за оговорку.
Sesame AI основал бывший технический директор Oculus Брендан Айриб, а в раунде Series A в компанию инвестировал фонд Andreessen Horowitz. Несмотря на коммерческий потенциал, Sesame AI планирует выпустить ключевые компоненты технологии в открытый доступ под лицензией Apache 2.0.
В ближайшие месяцы компания планирует добавить поддержку более 20 языков и усовершенствовать способность системы воспринимать динамику разговора – переходы между говорящими, паузы и темп речи.