Исследователи создали ИТ-компанию целиком из ИИ-агентов. Результаты разочаровали
Ученые из Университета Карнеги-Меллон провели эксперимент, создав виртуальную компанию TheAgentCompany, полностью укомплектованную ИИ-агентами от ведущих технологических компаний: Google, OpenAI, Anthropic и Meta. Искусственные сотрудники работали в качестве финансовых аналитиков, инженеров-программистов, менеджеров проектов и специалистов отдела кадров. У компании были даже виртуальные генеральный и технический директора.

Задачи, поставленные перед ИИ, имитировали повседневную деятельность реальной компании по разработке программного обеспечения. Агенты должны были ориентироваться в файловых каталогах, виртуально осматривать новые офисные помещения и писать обзоры производительности на основе собранных отзывов.
Результаты оказались катастрофическими. Лучшую производительность показал Claude 3.5 Sonnet от Anthropic, но даже он справился лишь с 24% поставленных задач. При этом его работа оказалась непомерно дорогой — в среднем на одну задачу уходило более $6. Gemini 2.0 Flash от Google занял второе место с показателем успешности 11,4%, затрачивая в среднем 40 шагов на задачу. Худшим «сотрудником» стала модель Nova Pro v1 от Amazon, завершившая только 1,7% своих заданий.
По словам исследователей, текущим ИИ-агентам не хватает «здравого смысла», социальных навыков и понимания навигации в интернете. Проблемой также стал феномен «самообмана», когда алгоритмы полностью срывали выполнение задачи, пытаясь выполнить ее любой ценой. Например, не найдя нужного человека в корпоративном чате, один агент решил переименовать другого пользователя в того, кого искал.
Эксперимент наглядно показал, что искусственный интеллект далек от того, чтобы заменить людей в сложных профессиональных областях, несмотря на заявления технологических гигантов. Современный ИИ, по сути, остается сложной версией предиктивного ввода текста, а не разумным существом, способным решать проблемы, учиться на опыте и применять полученные знания в новых ситуациях.