Быстрее, дешевле и эффективнее: людей в A/B-тестировании интерфейсов заменили на LLM-агентов
Исследователи из Северо-Восточного университета, Пенсильванского государственного университета и Amazon разработали систему AgentA/B, которая трансформирует традиционное A/B тестирование веб-интерфейсов. Вместо привлечения реальных пользователей система использует агентов на основе больших языковых моделей (LLM), которые симулируют человеческое поведение при взаимодействии с сайтами.

Традиционное A/B тестирование сталкивается с серьезными ограничениями: необходимость привлечения сотен тысяч реальных пользователей, длительные циклы получения результатов (недели или месяцы) и ограниченное количество тестируемых вариантов из-за нехватки ресурсов. AgentA/B решает эти проблемы — система позволяет создавать виртуальных пользователей с различными характеристиками, включая возраст, образование, технические навыки и покупательские предпочтения.
Архитектура системы состоит из четырех компонентов: генерация персон агентов, определение сценариев тестирования, выполнение взаимодействий в реальной браузерной среде и анализ результатов. Агенты могут выполнять те же действия, что и реальные пользователи, — искать, фильтровать, кликать и даже симулировать покупки.
В ходе тестирования на Amazon.com исследователи создали 100 тыс. виртуальных персон, из которых случайным образом выбрали 1 тыс. для участия в эксперименте. Ученые тестировали агентов на двух версиях страниц сайта: с полной панелью фильтров и с сокращенным набором. Результаты показали, что агенты, взаимодействующие с версией с сокращенными фильтрами, совершали больше покупок и действий на основе фильтров. Кроме того, виртуальные агенты были значительно эффективнее — по сравнению с миллионом реальных пользователей они выполняли меньше действий для достижения целей.
AgentA/B не заменяет традиционное A/B тестирование, а дополняет его — инструмент позволяет дешево и быстро получить обратную связь и дает возможность протестировать множество вариантов интерфейса. Система существенно сокращает цикл проектирования, позволяя оценивать идеи на гораздо более ранней стадии.