Новости

Для обучения ИИ исследователи всегда используют книги о Гарри Поттере. И Microsoft тоже

Бестселлеры о Гарри Поттере начали использовать для экспериментов с технологиями ИИ. Ученые тестируют ИИ на серии романов, чтобы проверить, как генеративные системы усваивают и разучивают определенные фрагменты информации.

Благодаря устойчивому влиянию сериала на массовую культуру, широкий спектр языковых данных и сложную игру слов на страницах книг, все больше исследователей предпочитают бестселлеры о Гарри Поттере для экспериментов с технологией генеративного искусственного интеллекта. Обзор списка исследований и академических работ, упоминающих Гарри Поттера, дает представление о передовых исследованиях нейросети и о некоторых самых острых вопросах, с которыми сталкивается технология.

В научной статье «Кто такой Гарри Поттер?» описывается методика, помогающая большим языковым моделям выборочно забывать информацию. Языковые модели обучаются на огромных объемах онлайн-данных, которые включают в себя защищенные авторским правом материалы и прочий проблемный контент, что в результате может привести к судебным искам на разработчиков этих систем и более пристальному вниманию общественности к их работам.

Авторы статьи, исследователи Microsoft Марк Руссинович и Ронен Элдан, продемонстрировали, как модель искусственного интеллекта может изменить или отредактировать данные так, чтобы удалить любые сведения о существовании книг о Гарри Поттере, включая персонажей и сюжеты, без ущерба для общих возможностей системы искусственного интеллекта в принятии решений и аналитических способностей.

Исследователи заявили, что выбрали эти книги из-за их всемирной известности. «Мы полагали, что людям из исследовательского сообщества будет проще оценить модель, полученную в результате нашей методики, и убедиться самим, что контент действительно был изучен, — сказал Руссинович, технический директор Microsoft Azure. — Почти любой может придумать подсказки для модели, которые позволят проверить, знает она книги или нет. Даже люди, не читавшие этой серии книг, будут осведомлены об элементах сюжета и персонажах».

В другом исследовании, объединившись ученые из Вашингтонского, Калифорнийского университета и Института искусственного интеллекта, разработали новую языковую модель под названием Silo, которая позволяет удалять данные для снижения юридических рисков. Однако если модель обучать только текстам с низким уровнем риска, таким как книги, защищенные авторским правом, или правительственные документы производительность модели может значительно снизиться, говорится в статье, опубликованной ранее в этом году.

Исследователи использовали книги о Гарри Поттере, чтобы углубиться и посмотреть, влияют ли отдельные фрагменты текста на производительность системы искусственного интеллекта. Они создали несколько хранилищ данных. В первое хранилище входили все опубликованные книги о Гарри Поттере, кроме первой; следующее включало все книги серии, кроме второй и так далее. «Когда книги о Гарри Поттере удаляются из хранилища данных, недоумение усугубляется», — сказали исследователи, имея в виду, насколько точно работает модель искусственного интеллекта.

Исследователи ИИ упоминают в своих работах Гарри Поттера не менее десяти лет, и сегодня книги о нем становятся все более распространенным явлением, поскольку и ученые, и технологии все больше сосредоточены на инструментах ИИ, помогающим в обработке естественного языка и механизмов реакции на него.

Даже если Гарри Поттер не занимает главного места в исследовании, он все равно продолжает являться любимым литературным персонажем особенно для молодых исследователей. Например, в одном из исследований, использовались работы Роулинг для проверки систем искусственного интеллекта, таких как те, которые породили чат-бота ChatGPT, вызвавшего много шума в недавних дебатах.

Дети сталкиваются с огромным количеством информации в интернете, часть которой не проверена и все чаще генерируется такими источниками, как языковые модели, управляемые искусственным интеллектом. По мере взросления детей способность оценивать надежность источника становится важным навыком в развитии критического мышления.