Новости

В ChatGPT обнаружили модель, которая сможет слушать и говорить одновременно

В приложении ChatGPT нашли упоминания новой голосовой модели GPT-Bidi-1, которую OpenAI пока официально не представляла. Исследовательский ресурс TestingCatalog обнаружил связанные с ней ссылки в коде приложения и сообщения о тестировании среди ограниченного круга пользователей.

Unsplash

Название, предположительно, отсылает к двунаправленной обработке аудио (bidirectional). По версии TestingCatalog, модель сможет продолжать воспроизводить речь и одновременно воспринимать входящий звук пользователя.

Нынешний голосовой режим ChatGPT уже позволяет пользователю перебивать ассистента, однако разговор по-прежнему строится вокруг последовательной смены реплик. Предполагается, что GPT-Bidi-1 сможет непрерывно обрабатывать входящий звук даже во время собственного ответа. По данным тестировщиков, модель быстрее реагирует на новые реплики и может произносить короткие подтверждения вроде «хорошо», не останавливая разговор.

По наблюдениям тестировщиков, модель также спокойнее реагирует на продолжительные паузы и не пытается заполнять их лишними репликами.

Среди предполагаемых улучшений TestingCatalog называет более надежное удержание контекста в продолжительных разговорах. Предыдущие голосовые версии могли терять содержание ранних реплик, из-за чего диалог становился менее последовательным. Фрагменты внутренней документации, на которые ссылается ресурс, описывают GPT-Bidi-1 как существенное расширение возможностей голосового интерфейса.

По данным TestingCatalog, GPT-Bidi-1 может появиться в голосовых настройках ChatGPT как отдельный вариант. При ее активации цвет индикатора якобы меняется с синего на желтый.

По сведениям TestingCatalog, доступ к GPT-Bidi-1 уже получил ограниченный круг пользователей приложения. Это может указывать на закрытое тестирование, но пока не позволяет судить о сроках публичного запуска. Ресурс также допускает возможную интеграцию модели с сервисом для программирования Codex, однако OpenAI эту информацию не комментировала.

Голосовые интерфейсы становятся одним из ключевых направлений развития ИИ. OpenAI уже развивает семейство Realtime для приложений, способных воспринимать речь и отвечать в реальном времени. Конкуренция в этом сегменте подталкивает технологические компании ускорять выпуск более естественных и отзывчивых голосовых сервисов.

Если сведения подтвердятся, GPT-Bidi-1 может сократить разрыв между текстовыми и голосовыми возможностями ChatGPT. Главным изменением станет не просто более естественная речь, а способность системы устойчиво поддерживать разговор с паузами, перебиваниями и одновременными репликами.

OpenAI пока не подтвердила существование модели и не раскрыла дату ее публичного анонса.


Подпишитесь на «Инк» в Telegram. Там мы пишем нескучным языком о самом важном для предпринимателей. Подписаться.