Новости

Ученые создали инструмент оценки эффективности нейросетей

Исследователи из Института AIRI, МФТИ и Лондонского института математических наук (LIMS) создали бенчмарк BABILong — инструмент для оценки реальной производительности языковых моделей при работе с большими объемами данных. Подробности находятся в распоряжении редакции Inc.

BABILong включает в себя 20 задач, которые требуют поиска и обработки разрозненных фактов в больших текстах. Среди них — связывание и комбинирование информации из нескольких фактов, индукция, дедукция, простейший подсчет и работа со списками и множествами.

Объем информации, которую нейросеть использует для решения конкретной задачи, называют длиной контекста. Чем она выше, тем потенциально лучше результат работы модели. Этот параметр растет, но популярные модели используют только 10–20% данных, поскольку обычно фокусируются на информации из первых и последних абзацев. Кроме того, производительность моделей снижается с увеличением сложности задач.

BABILong оценивает качество ответа и зависимость точности от длины контекста. В основу разработки легли задачи из датасета BABI — 20 основных операций, направленных на понимание базовой логики и арифметики. Вторую часть обновленного датасета составляют объемные данные художественной литературы.

После этого задачи, которые ранее были рассчитаны на понимание коротких текстов, были размещены в произвольном порядке по литературным произведениям. Для получения правильных решений от моделей требовалось не просто найти нужную информацию, но и выполнить ее анализ.

В ходе экспериментов исследователи применяли бенчмарк для анализа популярных open-source моделей с контекстом разной длины. Нейросети оперируют токенами — это базовые единицы текста, которые представляют собой несколько символов или часть слова. В рамках исследования команда провела анализ эффективности нейросетей в задачах с контекстом от 1 тыс. до 50 млн токенов.

Результаты показали значительное снижение производительности моделей при объеме данных, превышающих 25% от заявленной длины контекста. Это подчеркивает необходимость совершенствования механизмов обработки контекстной информации.

Ученые также представили адаптацию бенчмарка BABILong для русского языка под названием Libra, которая была разработана в сотрудничестве с командой R&D SberDevices. Она тестирует языковые модели на длинных контекстах, предлагая аналогичные задачи для оценки их работы с русскоязычными текстами.

BABILong выложен в публичный репозиторий для поддержки научного сообщества, а также будет представлен на конференции NeurIPS 2024 в Ванкувере.

Ранее сообщалось, что «Яндекс» представил новое поколение нейросетей YandexGPT 4, которые могут обрабатывать около 60 страниц текста и поддерживают функцию chain-of-thought. Новая линейка включает мощную языковую модель Pro и облегченную версию Lite. По словам представителей компании, они превосходят по качеству ответов предыдущие версии, что позволяет использовать нейросети для решения более сложных и разнообразных бизнес-задач, от анализа обращений клиентов до автоматизации закупок.