Новости

Большие языковые модели лучше экспертов справились с прогнозированием исследований в области нейронаук

Большие языковые модели показывают лучшие результаты, чем эксперты в области нейронаук, когда речь идет о предсказании итогов исследований. Научные исследования усложняются из-за стремительного увеличения объема опубликованной литературы. Людям становится сложно обрабатывать и анализировать такое количество информации, чтобы делать точные прогнозы.

Исследование, опубликованное в журнале Nature Human Behaviour, было мотивировано растущей ролью искусственного интеллекта в таких задачах, как сворачивание белков и открытие лекарств. Возник вопрос, могут ли большие языковые модели (LLM) аналогичным образом улучшить такие области, как нейронаука.

Сяолян Луо и его коллеги разработали BrainBench — тест, предназначенный для проверки того, могут ли LLM предсказывать результаты нейронаучных исследований более точно, чем эксперты-люди. Он включал 200 тестовых примеров, основанных на рефератах исследований в области нейронаук.

Каждый тест состоял из двух версий одного и того же реферата: одна была оригинальной, а другая содержала измененный результат, который менял вывод исследования, но сохранял целостность остальной части реферата. Перед участниками, как LLM, так и экспертами, стояла задача определить, какая версия верна.

В исследовании принял участие 171 человек, все эксперты в области нейронаук со средним стажем работы 10 лет, включая докторантов, постдокторантов и научных сотрудников.

С вычислительной стороны LLM общего назначения тестировались вместе с BrainGPT — специализированной моделью, настроенной на основе более 1,3 млрд текстов из литературы по нейронаукам.

BrainBench охватывает пять основных подобластей нейронаук, что обеспечивает всестороннюю оценку:

  • поведенческая и когнитивная;
  • клеточная и молекулярная;
  • системы и цепи;
  • нейробиология заболеваний;
  • развитие, пластичность и восстановление.

Для оценки больших языковых моделей исследователи использовали метрику Perplexity, которая измеряет, насколько хорошо модели предсказывают текстовые последовательности, в то время как точность человека измерялась на основе правильных ответов. Они также убедились, что тестовые элементы не присутствуют в обучающих данных LLM, что устраняет опасения по поводу запоминания.

Большие языковые модели значительно превзошли экспертов-людей в предсказании результатов исследований в области нейронаук. В среднем они достигли точности 81,4% по сравнению с 63,4% у людей.

BrainGPT, модель, настроенная с учетом знаний в области нейронаук, показала еще более высокие результаты. Она повысила точность на 3% по сравнению с LLM общего назначения. Такая специализированная подготовка позволила ей добиться превосходства во всех пяти подобластях нейронаук, включенных в тест.

Одним из ключевых преимуществ больших языковых моделей была их способность интегрировать информацию из всего реферата, включая предысторию и методы, а не полагаться на отдельные детали. При тестировании только раздела с результатами их точность падала, что демонстрирует важность контекстуального понимания.

Эксперты, напротив, с трудом достигали такого же уровня интеграции. Кроме того, и люди, и LLM демонстрировали более высокую точность, когда были уверены в своих предсказаниях, но большие языковые модели демонстрировали лучшее соответствие между уверенностью и правильностью.

Исследование подтвердило, что успех LLM объясняется не запоминанием, а их способностью распознавать закономерности в нейронаучных исследованиях, что подчеркивает их потенциал для помощи в научных открытиях.

Авторы признают, что BrainBench, несмотря на свою инновационность, требует больших трудозатрат при создании. Кроме того, существует риск, что опора на предсказания LLM может отбить у исследователей желание проводить исследования, противоречащие предсказаниям ИИ, что может затормозить инновации.

Искусственный интеллект также добился успехов в медицине. Хотя он помогает врачам просматривать изображения и находить аномалии, связанные с заболеванием, такие как клетки неправильной формы, было сложно разработать компьютерные модели, которые могли бы включать несколько типов данных. Исследователи из Стэнфордского медицинского университета разработали модель ИИ, способную включать визуальную и языковую информацию.