Perplexity被指控抓取明確禁止AI抓取的網站
互聯網基礎設施提供商Cloudflare週一發佈研究報告,指控AI初創公司Perplexity無視網站設置的機器人排除協議,通過偽裝身份等方式抓取內容。Perplexity發言人否認了這些指控。
人工智能初創公司Perplexity被指控無視網站明確設置的機器人排除協議,繼續抓取網頁內容。這一指控來自互聯網基礎設施提供商Cloudflare,該公司在週一發佈的研究報告中詳細説明了Perplexity如何規避網站的反抓取措施。
據Cloudflare的研究人員稱,Perplexity使用了多種手段來繞過網站的阻止規則。除了使用自己聲明的用户代理外,當被阻止時,Perplexity還會改用偽裝成macOS上Google Chrome瀏覽器的通用用户代理。此外,Perplexity還會更改其自治系統網絡(ASN)以隱藏真實身份。Cloudflare表示,這些活動涉及成千上萬個域名,每天產生數百萬次請求。
Cloudflare的研究源於其客户的投訴。這些客户表示,即使在robots.txt文件中添加了規則並明確阻止了Perplexity的已知機器人,Perplexity仍然在抓取他們的網站。經過測試,Cloudflare確認了這種行為。
Perplexity的發言人Jesse Dwyer則否認了這些指控,稱Cloudflare的博客文章是“銷售話術”,並強調博文中的截圖顯示“沒有訪問任何內容”。在後續郵件中,Dwyer還聲稱被Cloudflare點名的機器人“根本不是我們的”。
這並非Perplexity第一次被指控未經授權抓取內容。去年,包括《連線》雜誌在內的新聞媒體曾指控Perplexity抄襲它們的內容。當時在TechCrunch Disrupt 2024大會上,Perplexity首席執行官Aravind Srinivas在回答關於公司抄襲定義的問題時未能立即給出明確答案。
Cloudflare近期對AI爬蟲採取了強硬立場。上個月,該公司推出了一個市場,允許網站所有者和發佈商向訪問其網站的AI爬蟲收費。Cloudflare首席執行官Matthew Prince當時警告説,AI正在破壞互聯網的商業模式,尤其是出版商的利益。去年,Cloudflare還推出了免費工具,用於阻止機器人抓取網站以訓練AI。