Perplexity被指控抓取明確禁止AI抓取的網站
網際網路基礎設施提供商Cloudflare週一釋出研究報告,指控AI初創公司Perplexity無視網站設定的機器人排除協議,透過偽裝身份等方式抓取內容。Perplexity發言人否認了這些指控。
人工智慧初創公司Perplexity被指控無視網站明確設定的機器人排除協議,繼續抓取網頁內容。這一指控來自網際網路基礎設施提供商Cloudflare,該公司在週一釋出的研究報告中詳細說明了Perplexity如何規避網站的反抓取措施。
據Cloudflare的研究人員稱,Perplexity使用了多種手段來繞過網站的阻止規則。除了使用自己宣告的使用者代理外,當被阻止時,Perplexity還會改用偽裝成macOS上Google Chrome瀏覽器的通用使用者代理。此外,Perplexity還會更改其自治系統網路(ASN)以隱藏真實身份。Cloudflare表示,這些活動涉及成千上萬個域名,每天產生數百萬次請求。
Cloudflare的研究源於其客戶的投訴。這些客戶表示,即使在robots.txt檔案中新增了規則並明確阻止了Perplexity的已知機器人,Perplexity仍然在抓取他們的網站。經過測試,Cloudflare確認了這種行為。
Perplexity的發言人Jesse Dwyer則否認了這些指控,稱Cloudflare的部落格文章是“銷售話術”,並強調博文中的截圖顯示“沒有訪問任何內容”。在後續郵件中,Dwyer還聲稱被Cloudflare點名的機器人“根本不是我們的”。
這並非Perplexity第一次被指控未經授權抓取內容。去年,包括《連線》雜誌在內的新聞媒體曾指控Perplexity抄襲它們的內容。當時在TechCrunch Disrupt 2024大會上,Perplexity執行長Aravind Srinivas在回答關於公司抄襲定義的問題時未能立即給出明確答案。
Cloudflare近期對AI爬蟲採取了強硬立場。上個月,該公司推出了一個市場,允許網站所有者和釋出商向訪問其網站的AI爬蟲收費。Cloudflare執行長Matthew Prince當時警告說,AI正在破壞網際網路的商業模式,尤其是出版商的利益。去年,Cloudflare還推出了免費工具,用於阻止機器人抓取網站以訓練AI。