Новости

Qwen3-Omni: Alibaba представила ИИ, который обрабатывает больше текста и видео, чем GPT-4o

Компания Alibaba официально представила серию новых моделей искусственного интеллекта, среди которых ключевую роль играет Qwen3-Omni — мультимодальная система, способная одновременно обрабатывать текст, аудио, изображение и видео, а также отвечать как текстом, так и с помощью аудио.

Photo by Ban Daisy on Unsplash

В начале месяца китайская компания анонсировала выход Qwen3‑Max, которая служит флагманом линейки и оптимизирована для глубокого рассуждения, анализа длинных документов, кодирования и агентских рабочих процессов. Qwen3‑Omni же сосредоточена на мультимодальной обработке данных. Таким образом, обе модели относятся к одной линейке, но решают разные задачи: Qwen3‑Omni — мультимодальные сценарии, Qwen3‑Max — сложные аналитические и рассуждательные задачи.


Разработчики из подразделения облачных сервисов Alibaba заявляют, что две версии Qwen3-Omni превосходят не только предшественницу Qwen2.5-Omni-7B, но и конкурентов за рубежом — такие как OpenAI GPT-4o и Google Gemini-2.5-Flash (также известный как Nano Banana) — по ряду тестов на распознавание и понимание аудио, изображений и видео.

По словам Лина Цзюняня, одного из исследователей команды Qwen, улучшения достигнуты благодаря прогрессу в базовых компонентах, связанных с обработкой звука и изображения, что позволило повысить точность и универсальность модели. 

Qwen3-Omni задуман как «родная» мультимодальная система, то есть объединяющая в одном ядре разные виды данных (текст, аудио, фото, видео), без необходимости подключать отдельно специализированные модули. Это ставит ее в один ряд с системами типа GPT-4o и Gemini, которые уже давно экспериментируют с мультимодальными возможностями.

Несмотря на заявления о превосходстве, пока не ясно, насколько устойчивы результаты Qwen3-Omni в реальных практических приложениях, а не только в бенчмарках. Также будет интересно увидеть, как модель сможет интегрироваться в экосистему разработчиков и сервисов за пределами Китая.


OpenAI GPT-4o — выпущен в мае 2024 года; считается одной из передовых мультимодальных моделей, с возможностью обработки речи, визуальных данных и текста, поддерживает интерактивные сценарии в дополненную и виртуальную реальность.

Google Gemini / Gemini-2.5-Flash (Nano Banana) — Google продолжает развивать линейку Gemini, и версия 2.5-Flash включает улучшенные возможности генерации и редактирования изображений, реагирования на визуальные запросы, а Nano Banana получила известность как инструмент редактирования/создания изображений с ИИ-приемами, популярными среди пользователей, интересующихся визуальными творческими задачами.