Google использует контент СМИ для обучения ИИ, даже если издатели явно отказались от этого
Google использует контент издателей для обучения своих ИИ-моделей, применяемых в поиске, даже когда владельцы сайтов явно отказались от этого. Эта информация прозвучала от вице-президента Google Deepmind Эли Коллинза на судебном слушании в Вашингтоне. Действующая система отказа от обучения распространяется только на Deepmind, подразделение Google, разрабатывающее модели Gemini, но не затрагивает другие команды, включая поисковую.
Внутренний документ Google от лета 2024 года показал, что из 160 млрд токенов, изначально предназначенных для обучения ИИ, 80 млрд были удалены из-за отказа издателей. Однако, согласно показаниям Коллинза, эти данные все равно используются для обучения ИИ в поисковой системе Google, просто не напрямую в Deepmind. Фактически компания продолжает использовать эти данные внутри, несмотря на попытки издателей заблокировать все обучение ИИ Google.
Эти данные используются для функций поиска, таких как AI Overviews, которые отображают ответы, сгенерированные ИИ, прямо над традиционными результатами поиска. Это ставит Google в прямую конкуренцию с владельцами веб-сайтов, поскольку пользователи могут получать ответы без перехода на сайты, контент которых был использован для их генерации.
Эти детали всплыли в рамках текущего антимонопольного дела против Google в федеральном суде. Министерство юстиции США настаивает на продаже браузера Chrome и прекращении платежей производителям оборудования и приложений за установку Google в качестве поисковой системы по умолчанию.