Ведущий регулятор конфиденциальности Google в Европейском союзе начал расследование с целью проверки соблюдения компанией законов блока о защите данных в отношении использования информации о людях для обучения генеративного ИИ, сообщает TechCrunch.
В частности, изучается вопрос о том, необходимо ли технологическому гиганту проводить оценку воздействия на защиту данных (DPIA), чтобы заранее учитывать риски, которые его технологии ИИ могут представлять для прав и свобод лиц, чья информация использовалась для обучения моделей.
Инструменты генеративного ИИ печально известны тем, что создают правдоподобно звучащую ложь. Эта тенденция в сочетании со способностью предоставлять персональную информацию по запросу создает большой юридический риск для их создателей.
Комиссия по защите данных Ирландии (DPC), которая контролирует соблюдение Google Общего регламента по защите данных (GDPR) ЕС, имеет полномочия взимать штрафы в размере до 4% от годового мирового оборота Alphabet (материнской компании Google) за любые подтвержденные нарушения.
Google разработала несколько генеративных инструментов ИИ, включая целое семейство больших языковых моделей общего назначения (LLM), которые она называет Gemini. Она использует эту технологию для питания чат-ботов ИИ, в том числе для улучшения веб-поиска.
В основе этих ориентированных на потребителя инструментов ИИ лежит LLM Google под названием PaLM2, который она представила в прошлом году на своей конференции разработчиков I/O.
Ирландский комитет по защите данных (DPC) расследует, как Google разработала эту основополагающую модель ИИ, в соответствии с разделом 110 Закона Ирландии о защите данных 2018 года, который транспонировал GDPR в национальное законодательство.
Обучение моделей GenAI обычно требует огромных объемов данных, а типы информации, которую получают создатели степеней LLM, а также то, как и где они ее получают, все чаще подвергаются тщательной проверке с учетом ряда правовых проблем, включая авторские права и конфиденциальность.
В последнем случае информация, используемая в качестве учебного материала для ИИ, которая содержит персональные данные граждан ЕС, подпадает под действие правил защиты данных блока, независимо от того, была ли она взята из общедоступного интернета или получена напрямую от пользователей.
Вот почему ряд LLM уже столкнулись с вопросами — и некоторыми мерами по обеспечению соблюдения GDPR — связанными с соблюдением конфиденциальности, включая OpenAI, создателя GPT (и ChatGPT); и Meta* (запрещена на территории РФ), которая разрабатывает модель Llama AI.
X, принадлежащая Илону Маску, также привлекла жалобы на GDPR и гнев DPC из-за использования данных людей для обучения ИИ, что привело к судебному разбирательству и обязательству X ограничить обработку данных, но без санкций.
Хотя X все равно может столкнуться с штрафом GDPR, если DPC определит, что обработка пользовательских данных для обучения своего инструмента ИИ Grok нарушила режим. Расследование DPC в отношении GenAI от Google является последним регулирующим действием в этой области.
«Законодательное расследование касается вопроса о том, выполнила ли компания Google какие-либо обязательства, которые она могла иметь по проведению оценки в соответствии со статьей 35 Общего регламента по защите данных (оценка воздействия на защиту данных) перед началом обработки персональных данных субъектов данных ЕС/ЕЭЗ, связанных с разработкой ее основополагающей модели ИИ, Pathways Language Model 2 (PaLM 2)», — говорится в пресс-релизе DPC.
В нем отмечается, что оценка конфиденциальности персональных данных может иметь решающее значение для обеспечения того, чтобы основные права и свободы личности были надлежащим образом учтены и защищены, когда обработка персональных данных может привести к высокому риску.
«Это установленное законом расследование является частью более широких усилий DPC, работающих совместно с регулирующими органами ЕС/ЕЭЗ Европейской экономической зоны по регулированию обработки персональных данных субъектов данных ЕС/ЕЭЗ при разработке моделей и систем ИИ», — добавили в DPC, ссылаясь на продолжающиеся усилия сети органов по обеспечению соблюдения GDPR блока по достижению некоего консенсуса относительно того, как лучше всего применять закон о конфиденциальности к инструментам GenAI.
Google не стала отвечать на вопросы об источниках данных, используемых для обучения ее инструментов GenAI, но представитель компании Джей Столл отправил по электронной почте заявление, в котором Google написал: «Мы серьезно относимся к своим обязательствам в соответствии с GDPR и будем конструктивно работать с DPC, чтобы ответить на их вопросы».
Ранее Google проиграла борьбу с антимонопольным штрафом в размере €2,42 млрд ($2,7 млрд), наложенным Европейской комиссией семь лет назад. Это один из трех крупных штрафов, которые получила компания за различные антиконкурентные действия.