Perplexity被指控抓取明确禁止AI抓取的网站
互联网基础设施提供商Cloudflare周一发布研究报告,指控AI初创公司Perplexity无视网站设置的机器人排除协议,通过伪装身份等方式抓取内容。Perplexity发言人否认了这些指控。
人工智能初创公司Perplexity被指控无视网站明确设置的机器人排除协议,继续抓取网页内容。这一指控来自互联网基础设施提供商Cloudflare,该公司在周一发布的研究报告中详细说明了Perplexity如何规避网站的反抓取措施。
据Cloudflare的研究人员称,Perplexity使用了多种手段来绕过网站的阻止规则。除了使用自己声明的用户代理外,当被阻止时,Perplexity还会改用伪装成macOS上Google Chrome浏览器的通用用户代理。此外,Perplexity还会更改其自治系统网络(ASN)以隐藏真实身份。Cloudflare表示,这些活动涉及成千上万个域名,每天产生数百万次请求。
Cloudflare的研究源于其客户的投诉。这些客户表示,即使在robots.txt文件中添加了规则并明确阻止了Perplexity的已知机器人,Perplexity仍然在抓取他们的网站。经过测试,Cloudflare确认了这种行为。
Perplexity的发言人Jesse Dwyer则否认了这些指控,称Cloudflare的博客文章是“销售话术”,并强调博文中的截图显示“没有访问任何内容”。在后续邮件中,Dwyer还声称被Cloudflare点名的机器人“根本不是我们的”。
这并非Perplexity第一次被指控未经授权抓取内容。去年,包括《连线》杂志在内的新闻媒体曾指控Perplexity抄袭它们的内容。当时在TechCrunch Disrupt 2024大会上,Perplexity首席执行官Aravind Srinivas在回答关于公司抄袭定义的问题时未能立即给出明确答案。
Cloudflare近期对AI爬虫采取了强硬立场。上个月,该公司推出了一个市场,允许网站所有者和发布商向访问其网站的AI爬虫收费。Cloudflare首席执行官Matthew Prince当时警告说,AI正在破坏互联网的商业模式,尤其是出版商的利益。去年,Cloudflare还推出了免费工具,用于阻止机器人抓取网站以训练AI。