Новости

Российский ИИ научили понимать схемы и скриншоты

Компания MWS AI (входит в МТС Web Services) представила на форуме «Финополис-2025» мультимодальную модель Cotype VL, которая умеет работать сразу с текстом и изображениями. Это позволит бизнесу быстрее обрабатывать документы, где текст сочетается с графикой — например, таблицами, чертежами или скриншотами интерфейсов.

обложка
Freepik

По сути, Cotype VL — это «глазастый» ИИ: он понимает, что изображено на картинке, умеет читать даже рукописный текст и может ответить на вопросы по содержанию документа или изображения. Технология особенно полезна там, где важны детали — в инженерии, юриспруденции, финансах, HR и маркетинге.

Модель способна анализировать схемы, технические иллюстрации, карты, отчеты, чеки и скриншоты бизнес-приложений. Она может не только извлечь данные из таких документов, но и составить на их основе краткое описание или отчет. Это упрощает рутину в компаниях с большим документооборотом — от бухгалтерий до проектных бюро.

Cotype VL поддерживает несколько языков, включая русский, английский и китайский, и может работать в закрытых корпоративных контурах. При необходимости компании могут дообучить модель на собственных данных — это снижает риски утечки информации.

«Мультимодальные модели становятся основой для ИИ-помощников нового поколения. Они позволяют бизнесу быстрее принимать решения, ведь система теперь “понимает” не только текст, но и визуальный контекст — схемы, графики, документы», — отмечает генеральный директор MWS AI Денис Филиппов.

Для обучения модели команда MWS AI собрала 150 тыс. документов и изображений из разных отраслей — от финансов до здравоохранения. Это контракты, письма, таблицы, схемы, медицинские анализы, билеты и даже рукописные записи. Данные очищены от персональной информации, а недостающие примеры созданы с помощью синтетической генерации.

Открытые API (application programming interface) — это интерфейсы, позволяющие программам и приложениям разных банков безопасно обмениваться данными через интернет. Технология дает возможность пользователям самостоятельно разрешать передачу информации между банками и другими финансовыми организациями, включая микрофинансовые структуры и телеком-операторов.


Подобные разработки активно появляются и за рубежом. Например, OpenAI году представила GPT-4V, способную анализировать изображения и генерировать описания, а Google внедряет Gemini — мультимодальную систему для поиска, кода и визуальных задач. В корпоративной сфере растет интерес к мультимодальным ИИ-помощникам, которые могут работать с PDF, таблицами и графиками. Такие технологии ускоряют документооборот и сокращают нагрузку на офисных сотрудников, и российские компании теперь начинают предлагать аналогичные решения.