OpenAI выпустила свою самую совершенную модель преобразования речи в речь gpt-realtime и открыла доступ к ней по API. Эти обновления позволяют разработчикам и компаниям создавать надежных и готовых к работе голосовых ИИ-агентов с низкой задержкой и более естественным, выразительным звучанием.

OpenAI

Проблема традиционных голосовых ассистентов — это задержка и роботизированный голос. Они обычно используют цепочку из нескольких моделей (речь в текст, обработка, текст в речь), что замедляет ответ. Realtime API от OpenAI обрабатывает и генерирует аудио напрямую через единую модель, что значительно снижает задержку, сохраняет интонации и делает общение более живым.

GPT Realtime стала значительно лучше понимать сложные инструкции по сравнению со своим предшественником, интегрированным в GPT-4o. Также модель стала точнее использовать сторонние инструменты, говорить более качественно и следовать системным промптам. Также были добавлены два новых, более естественных голоса — Cedar и Marin.

Realtime API получил ключевые обновления для производственного использования. Добавлена поддержка телефонных звонков через протокол SIP, возможность передавать модели изображения для контекста (например, скриншоты) и поддержка удаленных серверов MCP для интеграции с внешними инструментами, такими как Stripe. Это делает голосовых агентов гораздо более функциональными.

OpenAI также снизила цены на gpt-realtime на 20% по сравнению с предыдущей версией. Стоимость составит $32 за 1 млн входных аудиотокенов и $64 за 1 млн выходных. Новые возможности API уже оценили такие компании, как Zillow, которые отмечают, что модель позволяет обрабатывать сложные многоэтапные запросы.

Ранее компания ElevenLabs, известная своими алгоритмами синтеза речи, представила ИИ-агентов, способных управлять компьютером пользователя при помощи голосовых команд.