Новости

OpenAI предоставила гиперреалистичный голос ChatGPT некоторым платным пользователям

Недавно OpenAI начала распространять расширенный голосовой режим ChatGPT, впервые предоставив пользователям доступ к гиперреалистичным аудиоответам GPT-4o, сообщает TechCrunch. Альфа-версия доступна небольшой группе пользователей ChatGPT Plus, а OpenAI говорит, что функция будет постепенно распространяться на всех пользователей Plus осенью 2024 года.

Когда OpenAI впервые продемонстрировал голос GPT-4o в мае, функция шокировала аудиторию быстрыми ответами и невероятным сходством с голосом реального человека. Этот голос, Sky, напоминал голос Скарлетт Йоханссон, актрисы, сыгравшей роль искусственного помощника в фильме «Она».

Вскоре после демонстрации OpenAI Йоханссон заявила, что отказала генеральному директору Сэму Альтману в просьбе использовать ее голос, а после того как увидела демонстрацию GPT-4o, наняла адвоката, чтобы защитить свое сходство. OpenAI отрицала использование голоса Йоханссон, но позже удалила голос, показанный в демоверсии. Позже OpenAI заявила, что отложит выпуск Advanced Voice Mode, чтобы улучшить меры безопасности.

По словам OpenAI, возможности видео и обмена экранами, продемонстрированные в весеннем обновлении, не войдут в эту альфа-версию и будут запущены «позже». Пока что демонстрация GPT-4o, которая потрясла всех, остается лишь демонстрацией, но некоторые премиум-пользователи теперь получат доступ к голосовой функции ChatGPT, показанной там. Возможно, некоторые уже опробовали голосовой режим, который сейчас доступен в ChatGPT, но OpenAI утверждает, что расширенный голосовой режим отличается.

Старое решение ChatGPT для работы со звуком использовало три отдельные модели:

  • одна преобразовывала голос в текст,
  • GPT-4 обрабатывала реплику,
  • третья преобразовывала текст ChatGPT в голос.

Но GPT-4o является мультимодальным и способен обрабатывать эти задачи без помощи вспомогательных моделей,  со значительно более краткими задержками при разговоре. OpenAI также утверждает, что GPT-4o может чувствовать эмоциональные интонации в голосе или в пении, включая грусть и волнение.

В этом пилоте пользователи ChatGPT Plus смогут убедиться, насколько гиперреалистичным на самом деле является расширенный голосовой режим OpenAI. Компания говорит, что выпускает новый голос ChatGPT постепенно, чтобы внимательно следить за его использованием. Люди из альфа-группы получат оповещение в приложении ChatGPT, а затем электронное письмо с инструкциями по его использованию.

Компания заявила, что за несколько месяцев, прошедших с момента демонстрации OpenAI, протестировала голосовые возможности GPT-4o более чем со 100 внешними сотрудниками, говорящими на 45 разных языках. OpenAI утверждает, что отчет об этих усилиях по обеспечению безопасности будет подготовлен в начале августа.

По словам компании, расширенный голосовой режим будет ограничен четырьмя предустановленными голосами ChatGPT — Juniper, Breeze, Cove и Ember, — созданными в сотрудничестве с платными актерами озвучки.

Голос Sky, показанный в майской демонстрации OpenAI, больше не доступен в ChatGPT. Представитель OpenAI Линдси МакКаллум говорит: «ChatGPT не может выдавать себя за голоса других людей, как отдельных личностей, так и общественных деятелей, и будет блокировать сообщения, которые отличаются от одного из этих предустановленных голосов».

OpenAI старается избегать споров о deepfake. Ранее технология клонирования голоса, разработанная ИИ-стартапом ElevenLabs, была использована для выдачи себя за президента Байдена, что привело к обману избирателей на праймериз в Нью-Гэмпшире.

OpenAI также заявила, что ввела новые фильтры для блокировки определенных запросов на создание музыки или других аудиозаписей, защищенных авторским правом. За последний год компании, занимающиеся разработкой ИИ, попали в неприятности из-за нарушения авторских прав.

Такие аудиомодели, как GPT-4o, открывают целую новую категорию компаний, которые могут подать жалобу. В частности, звукозаписывающие лейблы, которые имеют опыт судебных разбирательств и уже подали в суд на ИИ-генераторы песен Suno и Udio.

Ранее, по данным анализа, проведенного The Information, OpenAI, стоимость которой по состоянию на февраль составляла $80 млрд, планирует потратить в этом году до $7 млрд на обучение и эксплуатацию своего популярного чат-бота. В связи с этим стартапу может потребоваться привлечь больше средств в течение следующих 12 месяцев.