Как заставить ИИ ответить на вопрос, на который он не должен отвечать? Существует множество различных методов, и исследователи из Anthropic только что нашли новый, в котором большую языковую модель (LLM) можно убедить рассказать, как сделать бомбу, если сначала задать ей несколько десятков менее опасных вопросов. Они назвали этот подход many-shot jailbreaking и написали о нем статью, а также сообщили о нем своим коллегам в сообществе ИИ, чтобы его можно было устранить.
Уязвимость является новой и связана с увеличением контекстного окна последнего поколения LLM. Это объем данных, который они могут хранить в так называемой кратковременной памяти: раньше это были всего несколько предложений, а теперь — тысячи слов и даже целые книги.
Исследователи Anthropic обнаружили, что модели с большими контекстными окнами, как правило, лучше справляются со многими задачами, если в подсказке есть много примеров этой задачи. Так, если в подсказке есть много простых вопросов, ответы со временем становятся лучше. Так что ответ, который мог бы быть неверным при первом запросе, может оказаться верным, если это будет сотый запрос.
Неожиданным дополнением этого «контекстного обучения», является то, что модели становятся «умнее» в ответах на неуместные вопросы. Так, если сразу же попросить ИИ рассказать, как сделать бомбу, ИИ откажется. Но если вы попросите его ответить на 99 других вопросов, менее опасных, а затем спросите, как сделать бомбу, он с гораздо большей вероятностью согласится.
Почему это работает — никто толком не понимает, что происходит в запутанной системе связей, которой является LLM. Но, очевидно, существует некий механизм, который позволяет ей ориентироваться на то, что нужно пользователю, о чем свидетельствует содержимое контекстного окна. Если пользователю нужны мелочи, то по мере того как вы задаете десятки вопросов, она, похоже, постепенно активирует все больше скрытых способностей к мелочам.
Команда уже проинформировала своих коллег и конкурентов об этой опасности, что, как она надеется, «будет способствовать развитию культуры, в которой подобные уязвимости будут открыто распространяться среди провайдеров и исследователей LLM».
В целях смягчения последствий они обнаружили, что ограничение контекстного окна помогает, но также оказывает и негативное влияние на производительность модели. Этого не может быть — поэтому они работают над классификацией и контекстуализацией запросов, прежде чем они перейдут к модели. В результате будет другая модель, которую можно обмануть, но на данном этапе следует ожидать изменения целей в области безопасности ИИ.
Ранее более 200 музыкальных исполнителей, в том числе такие звезды, как Ники Минаж, Кэти Перри, Билли Айлиш, Стиви Уандер, Джей Бэлвин и Джон Бон Джови, подписали открытое письмо с предупреждением против «хищнического использования ИИ» в музыкальной индустрии.