ИИ-агенты, демонстрирующие выдающиеся результаты в симуляциях, могут оказаться неэффективными в условиях реального мира. Этот разрыв между теорией и практикой подтвердил эксперимент, проведенный компаниями Andon Labs и Anthropic (разработчик Claude). Они поручили ИИ-агенту по имени «Клавдий» (Claudius) управлять настоящим вендинговым автоматом в течение месяца.
Результаты эксперимента оказались поучительными. В симуляции ИИ-агент Claude 3.5 Sonnet превзошел человека, заработав условные $2217 против $844. Но реальный мир гораздо сложнее и непредсказуемее любой симуляции. Взаимодействие с живыми людьми порождает множество нестандартных ситуаций, к которым современные ИИ-агенты не готовы. Если в симуляции все участники, включая клиентов, были цифровыми, то в реальности «Клавдию» пришлось столкнуться с непредсказуемым человеческим поведением.
При управлении реальным вендинговым аппаратом «Клавдий» совершал множество ошибок: продавал товары в убыток, соглашался на необоснованные скидки для сотрудников и даже отказался от выгодной сделки, не продав шесть напитков стоимостью $15 за $100 (такую цену предложил покупатель).
Среди других промахов ИИ: он выдумал несуществующего сотрудника для пополнения запасов, некоторое время отправлял платежи на фейковый счет и раздавал товары бесплатно. В своем отчете Anthropic отметила, что не наняла бы «Клавдия» для управления вендинговым бизнесом из-за большого количества ошибок, хотя и видит пути для улучшения его работы.
Этот эксперимент подчеркивает критическую важность тестирования ИИ в реальных условиях перед их внедрением в экономически значимые процессы. Он демонстрирует, что, несмотря на впечатляющие успехи в контролируемых средах, ИИ-агентам все еще не хватает гибкости и здравого смысла для автономной работы. Человеческий надзор и понимание сложностей реального мира остаются незаменимыми.