Аналитики ByteDance Research заметили, что чат-бот от OpenAI и несколько других моделей искусственного интеллекта выдавали на запросы пользователей фразы, идентичные словам из оригиналов книг о Гарри Поттере. Официально это запрещено, так как такой контент защищен авторским правом.
Американская OpenAI скрывает, что ChatGPT обучался на книгах Дж. К. Роулинг о Гарри Поттере, которые защищены авторским правом. Об этом сообщает Business Insider со ссылкой на аналитиков из подразделения китайской компании ByteDance, владельца TikTok.
Согласно их исследованию, все большие языковые модели (large language models, LLM) обучались на огромном количестве данных и текстов из интернета, включая многие книги, на которые распространяется авторское право. OpenAI бесплатно использовала лицензированный контент без официального разрешения. Это привело к судебным искам со стороны авторов, утверждает издание.
Аналитики ByteDance Research заметили, что ChatGPT теперь старается не отвечать на запросы пользователей точными фразами из книг, в том числе о Гарри Поттере. Несмотря на это, чат-бот все равно показывал материалы, защищенные авторским правом, говорится в статье.
Авторы статьи предположили, что разработчики ChatGPT внедрили в него механизм, который помогает обработать запрос пользователя и определить, что он требует цитирования авторского контента. Так, чат-бот заменяет несколько слов в оригинальной фразе и генерирует ответ, якобы не похожий на дословную цитату.
Исследователи протестировали все версии ChatGPT, а также OPT–1.3B от Meta (признана экстремистской и запрещена в РФ), FLAN–T5 от Google, ChatGLM, разработанный китайским университетом Цинхуа, и DialoGPT от Microsoft.
Все модели отвечали на несколько запросов, основанных на серии книг о Гарри Поттере, фразами, полностью или почти полностью совпадающими с текстом произведений. Некоторые ответы отличались всего на одно или два слова.
В конце июня несколько миллионов человек подали в суд на OpenAI за кражу персональных данных, которые, предположительно, использовались для обучения ChatGPT. Истцы оценили нанесенный ущерб в $3 млрд. С аналогичным иском столкнулась Google в июле: компанию обвинили в краже личных данных, в том числе авторского контента сотен миллионов американцев.