AI News HubLIVE
站内改写2 分钟阅读

Cloudflare 将默认屏蔽广告支持网页上的搜索和抓取机器人

Cloudflare 宣布将默认阻止混合用途爬虫访问广告支持的客户网站,旨在保护出版商内容不被用于AI训练而影响搜索排名。新政策自2026年9月15日起生效,同时推出“按使用付费”和商业洞察仪表板等新工具。

来源Hacker News AI作者: hedora

Cloudflare 于本周三宣布,将很快默认阻止混合用途爬虫访问其广告支持的客户网站,这是该公司持续努力让网站出版商更好地控制与AI服务互动的一部分。

苹果、谷歌和微软的必应运营的爬虫可能受到Cloudflare这一决定的影响,尽管每家科技巨头都提供了AI选择退出机制,可能使他们免受制裁。

网络爬虫会自动向网站发出网络请求,用途各异。谷歌几十年来一直使用爬虫访问网站,以便将其纳入搜索索引。在过去几年中,许多爬虫开始访问网站以收集内容用于训练AI模型。这引发了各种对策——出版商认为他们没有因AI公司抓取内容用于模型训练而获得公平补偿。

但是,由于谷歌的爬虫Googlebot同时承担搜索索引和AI训练的内容抓取任务,网站出版商往往容忍它的存在,因为他们担心屏蔽可能导致网站从谷歌搜索结果中消失。微软的Bingbot情况类似。苹果也将其Applebot爬虫用于AI数据收集和索引职责。苹果在6月表示:“Applebot抓取的数据也可能用于训练支持苹果产品中生成式AI功能的苹果基础模型,包括Apple Intelligence、服务和开发者工具。”

苹果和谷歌支持robots.txt指令,允许出版商选择退出AI数据收集(通过Applebot-Extended和Google-Extended)。必应支持robots元标签的content="noarchive"属性,也能阻止数据收集。然而,其他爬虫运营商常常忽略自愿的robots.txt。因此,Cloudflare旨在为网站所有者提供一个声明性的内容网关。

Cloudflare联合创始人兼CEO Matthew Prince在一份声明中表示:“现在互联网上的大部分流量是非人类的,我们必须更进一步、更快行动,以便一个可持续的生态系统能够出现。Cloudflare的新工具和合作伙伴关系为网站所有者提供了更高的可见性和商业机会,并奖励那些拥有明确透明意图的AI公司。我们希望提议的默认更改能鼓励混合用途爬虫将搜索与代理使用和训练分开。”

从2026年9月15日起,新Cloudflare客户和现有客户的新站点将默认允许搜索爬取,但阻止从广告页面进行训练和代理访问。这些更改也将应用于未更改设置的免费层客户。正如该公司所说:“这确保产生收入的内容未经内容所有者明确许可不能被爬取。”

在人类使用广告拦截器和Cloudflare阻止广告页面机器人之间,许多营销材料可能被遗忘。但Cloudflare客户可以通过更改默认站点设置来重新允许爬虫访问其广告支持页面。

Cloudflare还进行了其他两项更改。其“按爬取付费”收费亭更名为“按使用付费”。其理念是在内容创造价值时奖励出版商,而不仅仅是在被抓取时。为此,Cloudflare与基于API的搜索公司Ceramic.ai合作,当出版商的内容出现在Ceramic.ai搜索结果中时,他们就能获得报酬。它还与面向AI代理的搜索引擎You.com合作,在代理有需求时生成内容付款。公司发言人未立即回应有关“按爬取付费”采用情况的询问。

最后,Cloudflare推出新的商业洞察仪表板,让出版商更深入了解机器人如何消费内容以及AI模型发送了多少流量。