Китайский стартап представил лучшую открытую модель, понимающую картинки и видео
Китайский стартап Moonshot AI представил новую модель искусственного интеллекта с открытым исходным кодом Kimi-VL. Алгоритм способен обрабатывать изображения, текст и видео с высокой точностью. Ключевая особенность модели — всего 2,8 млрд активных параметров при высокой производительности, сравнимой с гораздо более крупными системами.

Kimi-VL использует архитектуру «смеси экспертов» — это позволяет ей активировать только часть параметров для каждой задачи. Модель имеет контекстное окно в 128 тыс. токенов, что позволяет ей обрабатывать целые книги или длинные видео.
Система может анализировать большие детальные скриншоты или сложную графику, не разбивая их на части, справляется с математическими задачами на изображениях и распознает рукописные заметки. В одном из тестов модель проанализировала рукописный манускрипт, идентифицировала упоминания Альберта Эйнштейна и объяснила их значимость.
Kimi-VL может выполнять функции ассистента программиста — нейросеть интерпретирует графические интерфейсы и автоматизирует различные задачи. Moonshot AI утверждает, что в тестах по навигации в меню браузера или изменению настроек модель превзошла многие другие системы, включая GPT-4o. По сравнению с другими моделями с открытым исходным кодом Kimi-VL лидирует в 19 из 24 тестов.
Компания связывает высокую производительность алгоритма с новым подходом к обучению, включающим стандартную контролируемую настройку и обучение с подкреплением. Специализированная версия Kimi-VL-Thinking обучена «рассуждать», благодаря чему показывает высокую производительность в сложных задачах. Moonshot AI планирует разработать более крупные версии модели, увеличить обучающий датасет и улучшить методику тренировки, чтобы создать мощную, но ресурсоэффективную систему.