Ученые из нескольких исследовательских институтов Германии и США разработали новую технологию под названием TabPFN для работы с электронными таблицами и анализа данных. Эта модель значительно улучшает обработку научной, финансовой и медицинской информации, представленной в виде таблиц.
Фото: Freepik
В отличие от традиционных подходов TabPFN не нужно дообучать под каждый новый набор данных. Модель заранее обучена на огромном количестве (100 млн) синтетических таблиц, что позволяет ей сразу применять накопленные знания к новым задачам. Это особенно полезно для наборов данных среднего размера — до 10 тыс. строк.
Главное преимущество TabPFN — сочетание высокой точности с невероятной скоростью. Она выдает результаты за считанные секунды, тогда как другим алгоритмам для настройки под новый набор данных иногда требуются часы. При этом качество предсказаний превосходит популярные инструменты анализа данных, такие как XGBoost, CatBoost и LightGBM.
TabPFN хорошо справляется даже со сложными ситуациями, например, когда в данных есть пропуски, нетипичные значения или много колонок с не имеющей значения информацией. Модель успешно решает задачи как классификации (например определение категорий), так и регрессии (предсказание числовых значений).
Помимо основной функции прогнозирования TabPFN может генерировать реалистичные искусственные данные и оценивать вероятностные распределения. Это полезно для обнаружения аномалий и дополнения существующих данных.