Редакторы «Википедии» из команды WikiProject AI Cleanup опубликовали подробное руководство по выявлению текстов, сгенерированных искусственным интеллектом. Эта инициатива решает острую проблему для онлайн-энциклопедии: наплыв статей, написанных чат-ботами, которые часто нарушают стандарты нейтральности, содержат ошибки и вымышленные источники. Руководство призвано вооружить редакторов-людей инструментами для борьбы с некачественным контентом.
Oberon Copeland/Unsplash
Согласно руководству, один из главных признаков ИИ-текста — использование «высокопарного» и рекламного языка. Фразы вроде «является свидетельством», «играет жизненно важную роль», «богатое культурное наследие» или «захватывающая дух красота» часто встречаются в текстах, написанных чат-ботами, но не соответствуют энциклопедическому стилю. Также ИИ склонен к редакторским комментариям («важно отметить») и злоупотреблению формальными союзами («более того», «кроме того»).
Технические подсказки также помогают выявить работу ИИ. Чат-боты часто используют заголовочный регистр (каждое слово с большой буквы) вместо обычного, а также форматирование Markdown (звездочки или подчеркивания) вместо стандартных для «Википедии» кавычек. Еще один верный признак — вымышленные или неработающие ссылки и сноски, появляющиеся из-за «галлюцинаций» ИИ.
Иногда редакторы случайно вставляют в статьи целые фрагменты диалога с чат-ботом. Фразы «Надеюсь, это поможет!», «Конечно!» или отказы вроде «Как языковая ИИ-модель я не могу…» являются очевидными маркерами. Также обращают на себя внимание на оговорки об актуальности данных, например «по состоянию на [дата]».
Команда WikiProject AI Cleanup подчеркивает, что ни один из этих признаков не является стопроцентной гарантией, и рекомендует оценивать их в совокупности.
Они также предостерегают от слепой веры автоматическим детекторам ИИ-текстов. По словам команды, человеческое суждение остается главным инструментом для детекции текстов, созданных машиной.