Новости

Amazon сделали крупнейшую в мире ИИ-модель преобразования текста в речь с «зачатками разума»

Исследователи из Amazon обучили самую большую в истории модель преобразования текста в речь, которая, по их словам, демонстрирует «зарождающуюся способность произносить даже сложные предложения так, что это звучит вполне естественно».

Технологии постоянно совершенствуются, но исследователи надеются, что уровень развития языковых моделей будет повышаться по мере достижения определенного размера и со временем они станут гораздо более надежными и универсальными, способными выполнять задачи, которым они не были обучены.

Это не значит, что они обретают разум, просто после определенного момента их производительность в некоторых задачах меняется. Команда Amazon AGI думала, что то же самое может произойти по мере роста моделей преобразования текста в речь, и их исследование показывает, что это действительно так.

Новая модель называется Big Adaptive Streamable TTS with Emergent abilities, или BASE TTS. Самая большая версия модели использует 100 тыс. часов аудиозаписей из открытых источников, 90% из которых на английском, а остальные — на немецком, голландском и испанском языках.

Обладая 980 млн параметров, BASE-large является самой большой моделью в этой категории. Исследователи также обучили модели с 400 млн и 150 млн параметров на основе 10 тыс. и 1 тыс. часов аудиозаписей соответственно. Идея состоит в том, что если одна из этих моделей демонстрирует новые навыки, а другая — нет, то существует диапазон, в котором такое поведение начинает проявляться.

Как оказалось, модель среднего размера показала искомый скачок в возможностях не только в качестве речи (оно стало лучше, но всего на пару пунктов), но и в наборе возникающих способностей, которые они наблюдали и измеряли.

«Модель способна выполнять ряд сложных задач, например разбор сложносочиненных предложений, постановку фразового ударения в составных существительных, создание эмоциональной речи, или речи шепотом, или правильное произношение иностранных слов, или именование знаков, таких как @. Причем ни одну из них BASE TTS не обучена выполнять», — пишут авторы.

Такие речевые особенности обычно ставят в тупик системы преобразования текста в речь, которые неправильно произносят, пропускают слова, используют неестественную интонацию или совершают другие ошибки. У BASE TTS все еще были проблемы, но она справилась с ними гораздо лучше, чем ее современники, например Tortoise и VALL-E.

Примечательно, что эта модель является «потоковой», как следует из названия. Ей не нужно генерировать целые предложения сразу. Это происходит постепенно и с относительно низким битрейтом. На сайте языковой модели есть масса примеров того, как она совершенно естественно произносит даже сложные тексты. Конечно, они были тщательно отобраны исследователями, но все равно это впечатляет.

Поскольку три модели BASE TTS имеют общую архитектуру, очевидно, что размер самой модели и объем обучающих данных определяют ее способность справляться со сложными задачами. Следует помнить, что это все еще экспериментальная, а не коммерческая разработка. Дальнейшие исследования должны будут определить точку возникновения новых способностей, а также то, как эффективно обучать полученную модель.

Похоже, что в 2024 году модели преобразования текста в речь могут стать новым технологическим прорывом. Однако нельзя отрицать преимущества этой технологии, в частности, для обеспечения доступа к информации пользователей с ограниченными возможностями.

Ранее Марка Цукерберга обвинили в безответственном подходе к искусственному интеллекту, так как он пообещал создать мощную систему ИИ, не уступающую по уровню интеллекта человеку. Глава Meta* (запрещена на территории Российской Федерации) заявил, что компания попытается создать систему искусственного интеллекта общего назначения с открытым исходным кодом (AGI), то есть она будет доступна разработчикам за пределами компании.