Ученые из Йельского университета, Нью-Йоркского университета и Института искусственного интеллекта Аллена создали SciArena — открытую платформу для сравнения LLM на основе предпочтений реальных ученых.
Ai2
Оценка эффективности больших языковых моделей (LLM) для решения сложных научных задач является серьезной проблемой. Традиционные тесты не всегда отражают реальную пользу моделей для исследователей.
Суть платформы заключается в отходе от автоматизированных тестов в пользу прямого человеческого суждения. В отличие от стандартных бенчмарков, SciArena предлагает исследователям задавать реальные научные вопросы. В ответ система генерирует два развернутых ответа с цитатами от разных LLM, а пользователь выбирает лучший из них. Это позволяет получить более релевантную оценку качества работы моделей.
На данный момент платформа уже собрала более 13 тыс. оценок от 102 исследователей из разных областей науки. Согласно текущему рейтингу, лидирует модель GPT-4o от OpenAI, за ней следуют Claude-3.5-Sonnet и Gemini-1.5-Pro. Примечательно, что модель с открытым исходным кодом Deepseek-V2-Chat также показывает высокие результаты, превосходя некоторые проприетарные системы.
Команда проекта также разработала автоматизированную систему оценки SciArena-Eval, которая проверяет способность одних моделей оценивать ответы других. Однако даже лучшие LLM совпадают в своих оценках с предпочтениями людей лишь в 65% случаев. Это подчеркивает существующие ограничения в использовании ИИ для судейства в научной сфере и важность человеческой экспертизы.
С точки зрения научного сообщества и бизнеса, SciArena представляет собой ценный инструмент. Платформа с открытым исходным кодом обеспечивает прозрачность и помогает исследователям выбирать наиболее подходящие ИИ-инструменты для своей работы. Это способствует разработке более качественных и ориентированных на человека моделей для научных задач, наглядно демонстрируя, что на данном этапе развития технологий человеческая оценка остается золотым стандартом.