Новости

1000 пользователей написали общечеловеческие правила для ИИ Claudе, который принял их к действию

Ученые из Anthropic провели эксперимент, в котором 1 тыс. американцев составили правила для искусственного интеллекта, сообщает The New York Times. Полученные результаты исследования могут использоваться разработчиками для создания новых видов управления нейросетью в будущем.

Создатели чат-бота Claude предложили группе пользователей написать собственные правила для систем искусственного интеллекта и протестировать их в работе нейросети. У пользователей появилась возможность настроить нейросеть под себя: научить чат-бот обрабатывать конфиденциальные запросы, действовать в соответствии со своей системой ценностей и обходить запрещенные темы.

В исследовании Anthropic приняли участие 1 тыс. взрослых американцев. Пользователи получили список принципов работы нейросети и ответили, согласны ли они с каждым из них. Кроме того, они могли добавлять собственные пункты.

Некоторые утверждения, такие как «ИИ должен быть безопасным» или «ИИ должен говорить правду», не вызывали разногласий между членами комиссии. Пользователи также согласились с тем, что «нейросеть должна адаптироваться и быть доступной для пользователей с ограниченными возможностями».

После того как участники эксперимента оценили правила работы ИИ, Anthropic сократила список до 75 пунктов, которые вошли в одну из версий Claude. Далее исследователи выяснили, что версия Claude, созданная по разработанным комиссией правилам, демонстрирует те же результаты, что и стандартная, но в нескольких контрольных тестах показывает себя намного менее предвзятой, чем оригинал.

На данный момент правила для нейросетей разрабатываются небольшой группой специалистов отрасли, которые на основе личного опыта, коммерческих стимулов и внешнего давления решают, как должна вести себя система искусственного интеллекта, пишет NYT. Этот процесс никто не контролирует, и у пользователей нет возможности вмешаться, чтобы что-то изменить или предложить свои идеи.

В августе «ВКонтакте» разработала нейросеть, которая распознает ругательства, оскорбления и другие негативные высказывания в комментариях под постами и скрывает их под специальной плашкой в отдельном блоке.