Компания Meta* (запрещена на территории РФ) представила NotebookLlama — открытую версию генератора подкастов, аналогичную Google NotebookLM, сообщает TechCrunch. Для большей части обработки проект NotebookLlama использует собственные модели Llama.
Как и NotebookLM, он может генерировать дайджесты в стиле подкаста из загруженных в него текстовых файлов. Сначала NotebookLlama создает транскрипт из файла, например PDF-файла новостной статьи или записи в блоге, а затем добавляет «больше драматизации», после чего передает стенограмму открытым моделям преобразования текста в речь.
Результаты NotebookLlama звучат не так хорошо, как у NotebookLM. В некоторых образцах голоса имеют роботизированное качество и склонны иногда переговариваться друг с другом. Но исследователи Meta*, стоящие за проектом, говорят, что качество можно улучшить с помощью более сильных моделей.
«Модель (преобразования текста в речь) ограничивает естественность звучания, — написали исследователи на странице NotebookLlama в GitHub. — Кроме того, подход к написанию подкаста заключается в том, чтобы два агента обсуждали интересующую их тему и писали конспект подкаста».
NotebookLlama — не первая попытка повторить функцию подкаста в NotebookLM. Некоторые проекты были более успешными, чем другие, но ни один из них, даже сам NotebookLM, не смог решить проблему галлюцинаций, которая преследует все ИИ. Иными словами, подкасты, созданные ИИ, обязательно будут содержать выдуманные вещи.
Ранее Meta* представила новую модель искусственного интеллекта под названием Movie Gen, способную создавать реалистичные видео- и аудиоклипы в ответ на запрос пользователя. В компании утверждают, что она может соперничать с инструментами ведущих стартапов по созданию медиа, таких как OpenAI и ElevenLabs.