Большинство систем искусственного интеллекта (ИИ), особенно крупных техкомпаний, обучаются на наборах данных, использование которых нарушает законные интересы авторов. Об этом заявила заместитель председателя Российского комитета программы ЮНЕСКО «Информация для всех» (IFAP) Анастасия Паршакова на конференции «Искусственный интеллект в креативных индустриях» в Центре ИИ МГИМО.
Фото: Freepik
Эксперт назвала три самых распространенных способа нарушения прав и законных интересов авторов:
использование наборов данных без согласия автора;
невыплата вознаграждения авторам за создание таких наборов данных;
бессистемное создание наборов данных, из-за чего их сложно считать репрезентативными.
Соответственно, среди мер по решению этих проблем она назвала закрепление необходимости одобрения от правообладателей на использование их данных.
Кроме того, нужно введение требований о маркировке исходных данных, на основе которых обучаются системы искусственного интеллекта. В качестве примера возможной реализации этой инициативы эксперт привела номер DOI, которым снабжаются все статьи в научных журналах. По ее словам, это позволит гораздо легче понять, на основе каких текстов получены те или иные результаты работы системы ИИ.
Третья мера — обязательная маркировка конечных результатов работы системы искусственного интеллекта, то есть выходных данных в виде изображения, аудио- и видеоконтента. Для этого нужны четкие проверяемые стандарты, подчеркнула Паршакова.
«В качестве четвертой меры можно выделить усилия государственного сектора по обеспечению предоставления таких репрезентативных, справедливых и по возможности открыто доступных наборов данных. Это можно сделать за счет финансовой поддержки представителей креативных индустрии, частного бизнеса; схем стимулирования, регулирования и стандартизации производства этих наборов данных, например, путем установления стандартов качества», — рассказала эксперт.