С нейросетью теперь можно созвониться — китайская Qwen обновила своего чат-бота

Исследовательская команда Qwen (принадлежит Alibaba) выпустила мультимодальную модель Qwen2.5-Omni, способную работать одновременно с текстом, изображениями, аудио и видео. Новая нейросеть уже доступна в интерфейсе Qwen Chat — пользователи могут «позвонить» алгоритму по аудио или даже видео.

Модель использует уникальную архитектуру Thinker-Talker, которая позволяет обрабатывать разнородный контент и генерировать ответы в реальном времени как в текстовом, так и в голосовом формате.

Ключевой особенностью новой модели является возможность синхронизации временных меток видео и аудио с помощью технологии TMRoPE. Разработчики утверждают, что Qwen2.5-Omni превосходит аналогичные одномодальные модели по производительности во всех тестируемых режимах, включая распознавание речи, перевод, понимание аудио и изображений.

По результатам внутренних бенчмарков, новая модель демонстрирует высокую эффективность в задачах многомодального взаимодействия. Она показывает сопоставимую производительность с более крупными закрытыми моделями, такими как Gemini 1.5 Pro.

В ближайших планах разработчиков — улучшить понимание нейросетью голосовых команд, а также понимание аудио и видео. Кроме того, команда Qwen обещает внедрить в интерфейс своего чата ИИ-агентов, работающих по протоколу MCP.

Темы

ИИ искусственный интеллект технологии