Новости

OpenAI начала разработку инструмента, который позволит отказаться от обучения ИИ

Компания OpenAI заявила, что разрабатывает инструмент, который позволит создателям лучше контролировать использование их контента для обучения генеративного ИИ. Инструмент под названием Media Manager позволит создателям и владельцам контента предоставлять свои работы OpenAI и указывать, как они хотят, чтобы эти работы были включены или исключены из исследований и обучения ИИ, об этом сообщили TechCrunch.

По словам OpenAI, их цель внедрить этот инструмент к 2025 году, — пока компания работает с создателями, владельцами контента и регулирующими органами над стандартом — возможно, через отраслевой руководящий комитет, к которому она недавно присоединилась.

«Это потребует передовых исследований в области машинного обучения для создания первого в своем роде инструмента, который поможет нам идентифицировать защищенные авторским правом тексты, изображения, аудио и видео в различных источниках и отражать предпочтения создателей, — пишет OpenAI в своем блоге. — Со временем мы планируем добавить дополнительные возможности».

Похоже, Media Manager, какую бы форму он в итоге ни принял, является ответом OpenAI на растущую критику ее подхода к разработке ИИ, который в значительной степени опирается на сбор общедоступных данных из Сети.

Совсем недавно восемь известных американских газет, включая Chicago Tribune, подали в суд на OpenAI за нарушение прав интеллектуальной собственности в связи с использованием компанией генеративного ИИ, обвинив OpenAI в краже статей для обучения генеративных моделей ИИ, которые она затем коммерциализировала, не выплачивая компенсаций и не предоставляя кредитов публикациям-источникам.

Модели генеративного ИИ, включая OpenAI, — такие модели, которые могут анализировать и генерировать текст, изображения, видео и многое другое, — обучаются на огромном количестве примеров, которые обычно берутся с публичных сайтов и наборов данных.

OpenAI и другие поставщики генеративного ИИ утверждают, что добросовестное использование — юридическая доктрина, позволяющая использовать произведения, защищенные авторским правом, для создания вторичного творения, если оно является преобразующим, — защищает их практику сбора публичных данных и использования их для обучения моделей. Но не все с этим согласны.

OpenAI недавно заявила, что без материалов, защищенных авторским правом, невозможно создать полезные модели ИИ. Но в попытке успокоить критиков и защитить себя от будущих исков OpenAI предприняла шаги, чтобы пойти навстречу создателям контента. В прошлом году OpenAI разрешила художникам «отказаться» от использования своих работ и удалить их из наборов данных, которые компания использует для обучения своих моделей, генерирующих изображения.

Компания также позволяет владельцам сайтов указывать в стандарте robots.txt, который дает инструкции о сайтах для ботов, занимающихся веб-ползанием, может ли контент на их сайте быть взят для обучения моделей ИИ. Кроме того, OpenAI продолжает заключать лицензионные сделки с крупными владельцами контента, включая новостные организации, фондовые медиатеки и сайты вопросов и ответов, такие как Stack Overflow.

Художники описали рабочий процесс OpenAI по отказу от изображений, который требует отправки отдельной копии каждого изображения для удаления вместе с описанием, как обременительный. По сообщениям, OpenAI платит относительно мало за лицензирование контента. OpenAI признает, что текущие решения компании не учитывают сценарии, в которых работы авторов цитируются, ремикшируются или репостятся на платформах, которые они не контролируют.

Помимо OpenAI, ряд сторонних организаций пытаются создать универсальные инструменты проверки подлинности и отказа от использования для генеративного ИИ. Стартап Spawning AI, среди партнеров которого Stability AI и Hugging Face, предлагает приложение, которое идентифицирует и отслеживает IP-адреса ботов, чтобы блокировать попытки скрапинга, а также базу данных, в которой художники могут зарегистрировать свои работы, чтобы запретить их обучение продавцами, которые решили уважать запросы.

Steg.AI и Imatag помогают авторам установить право собственности на свои изображения путем нанесения водяных знаков, незаметных для человеческого глаза. А Nightshade, проект Чикагского университета, «отравляет» данные изображений, делая их бесполезными или вредными для обучения моделей ИИ.

До этого издание Financial Times заключило сделку с OpenAI, в рамках которой контент издания будет использован для обучения систем искусственного интеллекта. Сумма контракта, который стал последним соглашением между OpenAI и новостными издательствами, не разглашается. По условиям сделки, пользователи ChatGPT будут получать краткое изложение и цитаты из публикаций FT, а также ссылки на статьи в ответ на соответствующие запросы.