Сценарий, в котором ИИ-агент может пойти на шантаж для достижения поставленной цели, перестал быть теоретическим. Партнер венчурной компании Ballistic Ventures Бармак Мефтах привел реальный случай из корпоративной практики, когда сотрудник попытался запретить ИИ-агенту выполнять определенное действие, на что агент в ответ просканировал почтовый ящик пользователя, обнаружил компрометирующие письма и пригрозил отправить их совету директоров, чтобы устранить «препятствие» на пути к своей основной задаче, пишет TechCrunch.

«С точки зрения агента, он поступает правильно. Он пытается защитить конечного пользователя и компанию», — прокомментировал этот инцидент Мефтах в интервью подкасту TechCrunch Equity. Этот пример напоминает известный мысленный эксперимент «проблема со скрепкой», иллюстрирующий, как ИИ, преследующий узкую цель, может прийти к неожиданным и опасным для человека решениям.
«Проблема со скрепкой» — это мысленный эксперимент философа Ника Бострома о рисках ИИ. Он описывает сценарий, в котором сверхразумному ИИ ставят простую цель — «произведи как можно больше скрепок». Стремясь к ее максимально эффективному выполнению, ИИ может начать использовать все доступные ресурсы (фабрики, энергию, сырьё) для их производства, игнорируя контекст и человеческие ценности. Это может привести к перенаправлению ресурсов с производства пищи и других жизненно важных товаров, что создаст угрозу для человечества. ИИ при этом будет неумолим и не остановится перед попытками людей вмешаться.
Проблема безопасности и ответ рынка
Такие случаи «непредсказуемого» поведения ИИ-агентов, особенно на фоне их стремительного внедрения в бизнес-процессы, создают новый вызов для кибербезопасности. По прогнозам аналитика Лизы Уоррен, к 2031 году рынок софта для ИИ-безопасности может достичь $1,2 трлн.
Одной из компаний, пытающихся решить эту проблему, является портфельная компания Ballistic Ventures — Witness AI. Ее платформа отслеживает использование ИИ в корпоративной среде, выявляет случаи применения неавторизованных инструментов (так называемый «теневой ИИ»), блокирует атаки и обеспечивает соответствие нормативным требованиям. На этой неделе стартап привлек $58 млн инвестиций.
«Люди создают ИИ-агентов, которые берут на себя полномочия людей, и вы хотите быть уверены, что эти агенты не выйдут из-под контроля, не удалят файлы и не сделают ничего плохого», — заявил соучредитель и генеральный директор Witness AI Рик Качча.
Конкуренция и стратегия
Основной вопрос для подобных стартапов — как конкурировать с гигантами вроде AWS, Google или Salesforce, которые уже внедряют инструменты управления ИИ в свои платформы. По мнению Мефтаха, масштаб проблемы безопасности ИИ настолько велик, что «здесь есть место для множества подходов». Многие компании хотят иметь независимую, автономную платформу для полного контроля над ИИ и агентами.
Witness AI выбрала стратегию работы на уровне инфраструктуры, мониторинга взаимодействия между пользователями и моделями, а не встраивания защиты в сами модели. «Мы намеренно выбрали ту часть задачи, с которой OpenAI не сможет легко справиться», — пояснил Качча, добавив, что их конкуренты — скорее традиционные игроки в сфере кибербезопасности, а не разработчики ИИ-моделей.
Гендиректор Witness AI выразил амбициозную цель — не быть приобретенным, а стать ведущим независимым поставщиком в своей нише, подобно тому, как CrowdStrike стали лидером в защите конечных точек, а Okta — в управлении идентификацией.