Новости

DeepSeek представила модель сжатия текста через изображения

Китайская компания DeepSeek выпустила модель DeepSeek-OCR с открытым исходным кодом, которая сжимает текст через визуальное представление в 10 раз эффективнее традиционных текстовых токенов, сообщает издание The VentureBeat. Разработка может открыть путь к языковым моделям с контекстными окнами в десятки миллионов токенов.

Unsplash

Модель достигает точности декодирования 97% при сжатии текста до 10 раз, показали эксперименты на датасете Fox. При использовании всего 100 визуальных токенов система обработала документы с 700−800 текстовыми токенами с точностью 97,3%, что соответствует коэффициенту сжатия 7,5. Даже при сжатии до 20 раз точность составила около 60%.

Архитектура состоит из двух компонентов: визуального кодировщика DeepEncoder на 380 млн параметров и языкового декодера на 3 млрд параметров с активацией 570 млн. DeepEncoder объединяет модель Segment Anything Model от Meta (признана в России экстремистской и запрещена) для локального восприятия и CLIP от OpenAI для глобального понимания изображений через модуль сжатия 16x.

Сооснователь OpenAI и бывший директор по ИИ в Tesla Андрей Карпати отметил в публикации, что работа ставит фундаментальные вопросы о том, как AI-системы должны обрабатывать информацию. «Возможно, имеет больше смысла, чтобы все входные данные для больших языковых моделей всегда были только изображениями. Даже если у вас есть чисто текстовый ввод, возможно, вы предпочтете его отрендерить, а затем подать на вход», — написал Карпати.

Модель обучалась на 30 млн PDF-страниц примерно на 100 языках, из которых китайский и английский составили 25 млн страниц. Данные охватывают девять типов документов — от научных статей до рукописных заметок.

ИИ-исследователь Джеффри Эмануэль отметил потенциал получения передовой языковой модели с контекстным окном на 10−20 млн токенов. «Вы могли бы фактически втиснуть все ключевые внутренние документы компании в преамбулу промпта и кэшировать это, а затем просто добавить свой конкретный запрос или промпт поверх этого», — написал Эмануэль.