Perplexity、AIスクレイピングを明示的にブロックしたウェブサイトをスクレイピングしたと非難される
Cloudflareは月曜日に調査結果を発表し、AIスタートアップPerplexityがrobots.txtのブロックを無視し、偽装手段を用いてコンテンツをスクレイピングしていると主張した。Perplexityの広報担当者はこれらの非難を否定した。
AIスタートアップのPerplexityが、明示的にスクレイピングを禁止しているウェブサイトのコンテンツを無視してスクレイピングしているとの非難が浮上した。この非難はインターネットインフラプロバイダーのCloudflareによるもので、同社は月曜日に発表した調査レポートで、Perplexityがサイトのスクレイピング防止策をどのように回避しているかを詳述した。
Cloudflareの研究者によると、Perplexityはウェブサイトのブロックを回避するために複数の手法を使用している。自社のユーザーエージェントを使用するだけでなく、ブロックされた場合にはmacOS上のGoogle Chromeブラウザを装った汎用ユーザーエージェントに切り替えている。さらに、Perplexityは自らの自律システムネットワーク(ASN)を変更して正体を隠すこともあるという。Cloudflareは、これらの活動が数万のドメインにわたり、1日あたり数百万回のリクエストに及んでいると述べている。
Cloudflareの調査は、顧客からの苦情がきっかけだった。顧客は、robots.txtファイルにルールを追加し、Perplexityの既知のボットを明示的にブロックしたにもかかわらず、Perplexityが自社サイトをスクレイピングし続けていると報告していた。Cloudflareがテストを実施したところ、これらのブロックが回避されていることが確認された。
Perplexityの広報担当者Jesse Dwyerはこれらの非難を否定し、Cloudflareのブログ記事は「営業トーク」であり、記事内のスクリーンショットは「コンテンツがアクセスされていないことを示している」と述べた。さらに別のメールでは、Cloudflareが名指ししたボットは「当社のものではない」と主張した。
Perplexityが許可なくスクレイピングを行ったとして非難されるのは今回が初めてではない。昨年は、WiredなどのニュースメディアがPerplexityによるコンテンツの剽窃を告発した。その数週間後、TechCrunch Disrupt 2024のインタビューで、PerplexityのCEOであるAravind Srinivasは、同社の剽窃の定義を問われた際に即座に回答できなかった。
Cloudflareは近年、AIクローラーに対して強硬な姿勢を取っている。先月、同社はウェブサイト所有者やパブリッシャーが自社サイトにアクセスするAIスクレイパーに課金できるマーケットプレイスを立ち上げた。CloudflareのCEOであるMatthew Princeは当時、AIがインターネットのビジネスモデル、特にパブリッシャーの利益を損なっていると警告した。昨年も、CloudflareはAIトレーニングのためのスクレイピングを防ぐ無料ツールをリリースしている。