Компания OpenAI заявила, что разрабатывает инструмент, который позволит создателям лучше контролировать использование их контента для обучения генеративного ИИ. Инструмент под названием Media Manager позволит создателям и владельцам контента предоставлять свои работы OpenAI и указывать, как они хотят, чтобы эти работы были включены или исключены из исследований и обучения ИИ, об этом сообщили TechCrunch.
По словам OpenAI, их цель внедрить этот инструмент к 2025 году, — пока компания работает с создателями, владельцами контента и регулирующими органами над стандартом — возможно, через отраслевой руководящий комитет, к которому она недавно присоединилась.
«Это потребует передовых исследований в области машинного обучения для создания первого в своем роде инструмента, который поможет нам идентифицировать защищенные авторским правом тексты, изображения, аудио и видео в различных источниках и отражать предпочтения создателей, — пишет OpenAI в своем блоге. — Со временем мы планируем добавить дополнительные возможности».
Похоже, Media Manager, какую бы форму он в итоге ни принял, является ответом OpenAI на растущую критику ее подхода к разработке ИИ, который в значительной степени опирается на сбор общедоступных данных из Сети.
Совсем недавно восемь известных американских газет, включая Chicago Tribune, подали в суд на OpenAI за нарушение прав интеллектуальной собственности в связи с использованием компанией генеративного ИИ, обвинив OpenAI в краже статей для обучения генеративных моделей ИИ, которые она затем коммерциализировала, не выплачивая компенсаций и не предоставляя кредитов публикациям-источникам.
Модели генеративного ИИ, включая OpenAI, — такие модели, которые могут анализировать и генерировать текст, изображения, видео и многое другое, — обучаются на огромном количестве примеров, которые обычно берутся с публичных сайтов и наборов данных.
OpenAI и другие поставщики генеративного ИИ утверждают, что добросовестное использование — юридическая доктрина, позволяющая использовать произведения, защищенные авторским правом, для создания вторичного творения, если оно является преобразующим, — защищает их практику сбора публичных данных и использования их для обучения моделей. Но не все с этим согласны.
OpenAI недавно заявила, что без материалов, защищенных авторским правом, невозможно создать полезные модели ИИ. Но в попытке успокоить критиков и защитить себя от будущих исков OpenAI предприняла шаги, чтобы пойти навстречу создателям контента. В прошлом году OpenAI разрешила художникам «отказаться» от использования своих работ и удалить их из наборов данных, которые компания использует для обучения своих моделей, генерирующих изображения.
Компания также позволяет владельцам сайтов указывать в стандарте robots.txt, который дает инструкции о сайтах для ботов, занимающихся веб-ползанием, может ли контент на их сайте быть взят для обучения моделей ИИ. Кроме того, OpenAI продолжает заключать лицензионные сделки с крупными владельцами контента, включая новостные организации, фондовые медиатеки и сайты вопросов и ответов, такие как Stack Overflow.
Художники описали рабочий процесс OpenAI по отказу от изображений, который требует отправки отдельной копии каждого изображения для удаления вместе с описанием, как обременительный. По сообщениям, OpenAI платит относительно мало за лицензирование контента. OpenAI признает, что текущие решения компании не учитывают сценарии, в которых работы авторов цитируются, ремикшируются или репостятся на платформах, которые они не контролируют.
Помимо OpenAI, ряд сторонних организаций пытаются создать универсальные инструменты проверки подлинности и отказа от использования для генеративного ИИ. Стартап Spawning AI, среди партнеров которого Stability AI и Hugging Face, предлагает приложение, которое идентифицирует и отслеживает IP-адреса ботов, чтобы блокировать попытки скрапинга, а также базу данных, в которой художники могут зарегистрировать свои работы, чтобы запретить их обучение продавцами, которые решили уважать запросы.
Steg.AI и Imatag помогают авторам установить право собственности на свои изображения путем нанесения водяных знаков, незаметных для человеческого глаза. А Nightshade, проект Чикагского университета, «отравляет» данные изображений, делая их бесполезными или вредными для обучения моделей ИИ.
До этого издание Financial Times заключило сделку с OpenAI, в рамках которой контент издания будет использован для обучения систем искусственного интеллекта. Сумма контракта, который стал последним соглашением между OpenAI и новостными издательствами, не разглашается. По условиям сделки, пользователи ChatGPT будут получать краткое изложение и цитаты из публикаций FT, а также ссылки на статьи в ответ на соответствующие запросы.