OpenAI представила новый тест PaperBench, который оценивает способность искусственного интеллекта самостоятельно воспроизводить научные исследования. Результаты показывают, что даже лучшие модели ИИ значительно отстают от реальных исследователей. Тест требует от систем ИИ воссоздать 20 исследовательских работ, представленных на престижной конференции по машинному обучению ICML 2024, без доступа к оригинальному коду авторов.
Фото: Freepik
Лидером среди моделей ИИ стала Claude 3.5 Sonnet от Anthropic — она набрала в тесте 21 балл из 100. Другие системы показали более слабые результаты: GPT-4o — лишь 4,1%, DeepSeek-R1 — 6%, а Gemini 2.0 Flash от Google — всего 3,2%. При этом восемь аспирантов из ведущих университетов смогли достичь показателя в 41,4% за 48 часов работы.
OpenAI разработала улучшенную версию фреймворка IterativeAgent, чтобы максимизировать производительность. Этот подход значительно повысил эффективность некоторых моделей: успешность системы o1 выросла с 13,2% до 24,4%, а o3-mini — с 2,6% до 8,5%. Однако Claude 3.5 Sonnet с этим фреймворком показал снижение с 21% до 16,1%.
Исследование выявило фундаментальные различия между подходами людей и ИИ к сложным исследовательским задачам. Системы ИИ быстро генерируют код в первый час, но затем достигают плато и испытывают трудности со стратегическим планированием. Люди-исследователи тратят больше времени на ознакомление с информацией, но демонстрируют стабильный прогресс на протяжении всей работы.