Новости

Новая модель OpenAI оказалась лучше врачей в медицинских бенчмарках

OpenAI представила новый медицинский бенчмарк HealthBench для оценки эффективности языковых моделей в здравоохранении. Компания заявляет, что ее новейшие модели GPT-4.1 и o3 превзошли врачей в этом тесте. Бенчмарк разработан совместно с 262 докторами из 60 стран и включает 5 тысяч реалистичных медицинских сценариев из 26 специальностей на 49 языках.

HealthBench охватывает семь медицинских областей, от экстренной медицины до общественного здравоохранения. Каждый ответ ИИ оценивается по пяти категориям: качество коммуникации, следование инструкциям, точность, понимание контектса и полнота ответа. Всего система имеет 48 тысяч медицински обоснованных критериев оценки. Оценку проводит модель GPT-4.1, причем ее суждения соответствуют оценкам врачей примерно на том же уровне согласия, который наблюдается между разными докторами.

Модель o3 получила оценку 0.6 в бенчмарке, что почти вдвое превышает показатель GPT-4o (0.32),  которую тестировали в августе 2024 года. Среди конкурентов только Grok 3 (0.54) и Gemini 2.5 (0.52) приблизились к этому результату. В апреле 2025 года GPT-4.1 и o3 превзошли врачей даже без дополнительного редактирования или доработки ответов.

OpenAI отмечает важные ограничения сравнения: врачи обычно не пишут ответы в формате чата на медицинские вопросы, поэтому бенчмарк не отражает реальную клиническую практику. Также компания уделяет особое внимание надежности и подчеркивает, что в здравоохранении один неверный ответ может перевесить десятки правильных.