2025-08-04 23:41 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

Perplexity被指控抓取明确禁止AI抓取的网站

互联网基础设施提供商Cloudflare周一发布研究报告，指控AI初创公司Perplexity无视网站设置的机器人排除协议，通过伪装身份等方式抓取内容。Perplexity发言人否认了这些指控。

来源TechCrunch AI作者: Lorenzo Franceschi-Bicchierai

人工智能初创公司Perplexity被指控无视网站明确设置的机器人排除协议，继续抓取网页内容。这一指控来自互联网基础设施提供商Cloudflare，该公司在周一发布的研究报告中详细说明了Perplexity如何规避网站的反抓取措施。

据Cloudflare的研究人员称，Perplexity使用了多种手段来绕过网站的阻止规则。除了使用自己声明的用户代理外，当被阻止时，Perplexity还会改用伪装成macOS上Google Chrome浏览器的通用用户代理。此外，Perplexity还会更改其自治系统网络（ASN）以隐藏真实身份。Cloudflare表示，这些活动涉及成千上万个域名，每天产生数百万次请求。

Cloudflare的研究源于其客户的投诉。这些客户表示，即使在robots.txt文件中添加了规则并明确阻止了Perplexity的已知机器人，Perplexity仍然在抓取他们的网站。经过测试，Cloudflare确认了这种行为。

Perplexity的发言人Jesse Dwyer则否认了这些指控，称Cloudflare的博客文章是“销售话术”，并强调博文中的截图显示“没有访问任何内容”。在后续邮件中，Dwyer还声称被Cloudflare点名的机器人“根本不是我们的”。

这并非Perplexity第一次被指控未经授权抓取内容。去年，包括《连线》杂志在内的新闻媒体曾指控Perplexity抄袭它们的内容。当时在TechCrunch Disrupt 2024大会上，Perplexity首席执行官Aravind Srinivas在回答关于公司抄袭定义的问题时未能立即给出明确答案。

Cloudflare近期对AI爬虫采取了强硬立场。上个月，该公司推出了一个市场，允许网站所有者和发布商向访问其网站的AI爬虫收费。Cloudflare首席执行官Matthew Prince当时警告说，AI正在破坏互联网的商业模式，尤其是出版商的利益。去年，Cloudflare还推出了免费工具，用于阻止机器人抓取网站以训练AI。