Новости

Amazon начала расследование в отношении стартапа Perplexity, подозревая его в скрапинге веб-сайтов без разрешения

Amazon начала расследование в отношении деятельности популярного стартапа в сфере искусственного интеллекта Perplexity, подозревая его в нарушении правил своего облачного подразделения путем несанкционированного сбора контента с других веб-сайтов без разрешения, сообщает технологическое издание Wired.

Как сообщает издание, компания Perplexity, которая недавно получила оценку в $3 млрд, предположительно игнорирует известный веб-стандарт «Протокол исключения роботов», обычно называемый robots.txt, которые новостные издатели и другие сайты используют, чтобы показывать автоматическим ботам, какие страницы им не разрешено парсить.

Несмотря на то что соблюдение стандарта не является обязательным по закону, большинство интернет-компаний предпочитают следовать протоколу. Это соблюдение также является обязательным для веб-сайтов, использующих веб-сервисы Amazon.

«Условия обслуживания AWS запрещают оскорбительные и незаконные действия, и наши клиенты несут ответственность за соблюдение этих условий, — заявил представитель Amazon Web Services. — Мы регулярно получаем сообщения о предполагаемых злоупотреблениях из различных источников и привлекаем наших клиентов к изучению этих сообщений».

Особое внимание к деятельности Perplexity усилилось после того, как ранее Forbes обвинил компанию в «прямом копировании» статей, написанных ее репортерами и другими журналистами CNBC и Bloomberg, в том числе тех, которые находились в платном доступе.

Wired обратилось к Amazon после того, как собственное расследование показало, что Perplexity предположительно использовала «неопубликованный IP-адрес» для парсинга веб-сайтов, которыми управляет ее материнская компания Condé Nast, несмотря на попытки заблокировать доступ. В издании сообщили, что представители других изданий, в том числе Forbes, New York Times и Guardian, обнаружили тот же IP-адрес при посещении своих серверов.

Представитель Perplexity Сара Платник раскритиковала заявление Wired и назвала его «неточным». «Наш PerplexityBot, работающий на AWS, учитывает robots.txt, и мы подтвердили, что контролируемые Perplexity сервисы не выполняют сканирование каким-либо образом, нарушающим условия обслуживания AWS», — сказала Платник.

«AWS рассмотрела медиа-запрос WIRED в рамках стандартного протокола расследования сообщений о злоупотреблении ресурсами AWS. Мы ничего не слышали от AWS до того, как с ними связался репортер WIRED. Говорить, что AWS «расследует» Perplexity за пределами этого конкретного запроса WIRED, неверно. AWS — ценный партнер Perplexity, и мы благодарны за их постоянное сотрудничество», — добавила она.

Платник рассказала Wired, что PerplexityBot может обойти протокол robots.txt только в «очень редких» случаях, когда пользователь включает в свой запрос определенный URL-адрес. Ранее генеральный директор Perplexity Аравинд Сринивас тоже раскритиковал выводы Wired, заявив, что они «отражают глубокое и фундаментальное непонимание того, как работают Perplexity и Интернет».

Forbes заявляет, что «Perplexity Pages», инструмент для создания контента, извлекающий детали из статей, написанных сторонними новостными агентствами, не указывает авторов. Вместо этого Perplexity использует незаметные ссылки на первоисточники.

В одном из таких случаев чат-бот Perplexity выдал версию эксклюзивного платного отчета Forbes о проекте военного беспилотника бывшего генерального директора Google Эрика Шмидта.

«Наш репортаж о проекте Эрика Шмидта по созданию беспилотника-невидимки был опубликован сегодня утром @perplexity_ai. Он копирует большую часть наших репортажей. Он цитирует нас и тех, кто сделал репост нас, как источники, которые легче всего игнорировать», — написал тогда на X исполнительный редактор Forbes Джон Пачковски. Сринивас в свою очередь сказал, что инструмент «имеет острые углы», но в остальном отрицает свою вину.

В марте антимонопольное ведомство Франции наказало Google штрафом в размере $270 млн за нарушение обязательств перед новостными издателями и использование их контента для обучения искусственного интеллекта без уведомления правообладателей.