Новости

В России разработали алгоритм, который с точностью до 94% определяет, написан текст человеком или нейросетью

Ученые из ИТМО разработали алгоритм, позволяющий с точностью до 94% определять происхождение текста. Новый инструмент различает написанные человеком тексты, сгенерированные ИИ, а также материалы, созданные человеком и затем отредактированные с помощью нейросети. Подробности — в распоряжении «Инка».

Markus Spiske Iar, Unsplash

Разработчики отмечают, что система работает с точностью до 94%: при анализе 5,5 тыс. русскоязычных текстов она почти безошибочно определяла авторство: написано человеком или ИИ. Если же в выборке оказывались материалы, которые сначала написал человек, а потом обработала нейросеть, точность достигала 80%.

Алгоритм учитывает стиль и содержание, а также анализирует лингвистические признаки: длину слов и предложений, распределение частей речи, разнообразие словаря и читаемость. Сравнивая тексты сразу на двух независимых моделях, система фиксирует расхождения — если мнение моделей сильно расходится, то текст, скорее всего, написан нейросетью.

Для обучения детектора был создан корпус из более 4 тыс. материалов: научных статей, эссе и новостей, а также перефразированных и полностью сгенерированных нейросетями (ChatGPT, Gemini, DeepSeek) текстов на те же темы.

Помимо детектора, команда разработала обфускатор — редактор, который устраняет «машинные маркеры». Он переписывает подозрительные фрагменты, убирает лишние переносы, превращает списки в абзацы, сохраняя смысл и удобочитаемость. Инструмент можно использовать для проверки устойчивости детекторов или для подготовки текстов без явных следов ИИ, однако авторы подчеркивают, что выступают за прозрачную маркировку контента.

Технология, по мнению исследователей, может быть полезна в университетах для проверки студенческих работ, в СМИ для корректной маркировки ИИ-контента, а также в компаниях — для контроля качества корпоративных документов. Демоверсия уже доступна на Hugging Face Spaces: пользователи могут загрузить текст и получить оценку его происхождения.


Научный руководитель проекта, сотрудник факультета информационных технологий и программирования ИТМО Вячеслав Шаламов сообщил, что сейчас команда работает над созданием удобного интерфейса и функцией пакетной обработки, которая позволит анализировать сразу несколько текстов и ускорит процесс.

Он отметил, что осенью планируется расширение команды за счет молодых исследователей, а к весне сервис намерены внедрить в ИТМО в пилотном режиме для выявления и исправления машинного текста в дипломных работах студентов.