Один из блогеров YouTube хочет подать коллективный иск против OpenAI, утверждая, что компания обучала свои генеративные модели искусственного интеллекта на миллионах транскриптов видео с YouTube, не уведомив об этом владельцев роликов и не выплатив им компенсацию, сообщает TechCrunch.
В жалобе, поданной в окружной суд США по Северному округу Калифорнии, адвокаты Дэвида Миллетта утверждают, что OpenAI тайно расшифровывала видеоролики Миллетта и других авторов для обучения моделей, на которых основана платформа чат-ботов ChatGPT и другие инструменты и продукты генеративного ИИ компании.
Собирая эти данные, OpenAI «получала значительную прибыль» от работы создателей, утверждается в жалобе, нарушая при этом закон об авторском праве и условия обслуживания YouTube, запрещающие использовать видео для приложений, не зависящих от сервиса.
«По мере того как продукты ИИ OpenAI становятся все более сложными благодаря использованию наборов обучающих данных, они приобретают все большую ценность для потенциальных и текущих пользователей, которые покупают подписку на доступ к продуктам, — говорится в жалобе. — Однако большая часть материалов, содержащихся в наборах обучающих данных OpenAI, взята из произведений, которые были скопированы OpenAI без согласия, без указания авторства и без компенсации».
Миллетт, интересы которого представляет юридическая фирма Bursor & Fisher, добивается суда присяжных и возмещения ущерба в размере более $5 млн для всех пользователей и создателей YouTube, чьи данные могли быть использованы в процессе обучения OpenAI.
Генеративные модели ИИ, подобные модели OpenAI, не обладают настоящим интеллектом. На основе огромного количества примеров (например фильмов, голосовых записей, сочинений) модели учатся вероятности возникновения данных, основываясь на закономерностях, включая контекст окружающих данных.
Большинство моделей обучаются на данных, полученных с публичных веб-сайтов и наборов данных в Интернете. Компании утверждают, что добросовестное использование защищает их попытки без разбора собирать данные и использовать их для обучения коммерческих моделей. Однако многие правообладатели с этим не согласны и подают иски с целью остановить эту практику.
По данным Originality.AI, более 35% 1 тыс. крупнейших веб-сайтов мира блокируют веб-краулер OpenAI. А около 25% данных из «высококачественных» источников были исключены из основных наборов данных, используемых для обучения моделей ИИ, показало исследование MIT’s Data Provenance Initiative. По прогнозам исследовательской группы Epoch AI, если тенденция блокировки доступа сохранится, то в период с 2026 по 2032 год у разработчиков закончатся данные для обучения генеративных моделей ИИ.
В апреле The New York Times сообщала, что OpenAI создала свою первую модель распознавания речи, Whisper, для расшифровки аудио из видео, чтобы собрать дополнительные данные для обучения. По данным The Times, команда OpenAI, в которую входил президент компании Грег Брокман, расшифровала с помощью Whisper более миллиона часов видео с YouTube и использовала расшифровки для обучения модели OpenAI GPT-4, генерирующей и анализирующей текст.
Некоторые сотрудники OpenAI обсуждали, что такой шаг может противоречить правилам YouTube, сообщает Times. В июле издание Proof News сообщило, что компании, включая Anthropic, Apple, Salesforce и Nvidia, использовали набор данных под названием The Pile, содержащий субтитры из сотен тысяч видеороликов YouTube, для обучения генеративных моделей ИИ.
Многие создатели YouTube, чьи субтитры попали в The Pile, не знали об этом и не давали своего согласия; позже Apple выпустила заявление, в котором говорится, что она не намерена использовать эти модели для работы каких-либо функций ИИ в своих продуктах. Google, материнская компания YouTube, также пыталась использовать транскрипты для обучения своих моделей.
В прошлом году Google расширила условия предоставления услуг (ToS), чтобы позволить компании использовать больше пользовательских данных для обучения генеративных моделей ИИ. В соответствии со старыми условиями обслуживания, было неясно, может ли Google использовать данные YouTube для создания продуктов за пределами видеоплатформы.
Ранее генеральный директор Tesla и X Илон Маск подал новый иск против OpenAI и генерального директора Сэма Альтмана, обвинив компанию в отказе от своей первоначальной некоммерческой миссии, оставив некоторые из своих самых сложных технологий для коммерческих клиентов. Маск выдвинул те же претензии в февральском иске против OpenAI, но в новом иске утверждается, что OpenAI также занимается рэкетом.
Ранее сообщалось, что после известия о том, что американские регуляторы решили провести расследования в отношении компаний Microsoft, OpenAI и Nvidia, им грозит усиление антимонопольного контроля за их деятельностью в сфере искусственного интеллекта. Министерство юстиции США и Федеральная торговая комиссия (FTC) достигли соглашения о проведении расследований в отношении лидеров на рынке ИИ-технологий.