AI训练重定向功能确保内容规范一致
Cloudflare推出“AI训练重定向”功能,可一键将已验证的AI训练爬虫从已弃用页面重定向到最新规范内容。该功能利用网页已有的规范标签自动生成301重定向,无需修改源站。同时,Cloudflare Radar的AI洞察页面新增响应状态码分析,展示AI爬虫收到的各类HTTP状态码分布。
Cloudflare近期推出了一项名为“AI训练重定向”(Redirects for AI Training)的新功能,旨在解决AI训练爬虫忽略页面中的弃用提示、继续抓取过时内容的问题。许多网站维护着多个版本的历史文档,并通过弃用横幅、noindex标签和规范标签(canonical tag)来告知用户和搜索引擎哪些内容已过时。然而,Cloudflare的观察发现,AI训练爬虫并不可靠地遵循这些软性信号。在其开发者文档站点上,过去30天内AI爬虫的访问量达480万次,其中弃用页面和当前页面的被抓取比例几乎相同。
为了解决这一问题,Cloudflare利用网页中已广泛存在的规范标签——目前约65%-69%的网页都包含此标签——作为强制机制。当已验证的AI训练爬虫请求一个包含非自身指向的规范标签的页面时,Cloudflare会自动返回一个301永久重定向,将爬虫引导至规范的URL。该功能涵盖的爬虫包括GPTBot、ClaudeBot、Bytespider等,属于AI爬虫类别,与AI助手和AI搜索类别区分开。用户只需在Cloudflare后台的AI爬虫控制(AI Crawl Control)中一键开启即可启用,无需对源站做任何修改。
需要注意的是,该功能不会回溯纠正已经摄入的训练数据,也不会覆盖未经验证的爬虫。同时,跨域规范标签(指向不同域名的规范URL)和自引用的规范标签(指向自身)不会触发重定向。与手动配置重定向规则相比,这种方法更具扩展性,因为它自动与现有的规范标签同步,避免了手动维护的麻烦和潜在的不一致。
Cloudflare在其自身开发者文档站点上测试了该功能。启用前,Legacy Workers文档在2026年3月被OpenAI爬取约4.6万次,被Anthropic爬取3600次,被Meta爬取1700次。启用后的一周内,所有AI训练爬虫对包含非自引用规范标签页面的请求都被重定向,不再返回弃用内容。Cloudflare表示,这将有助于改善AI助手对于旧版工具的回答质量,但受限于训练管道的封闭性和重新爬取时间的可变性,这一假设仍需持续验证。
此外,Cloudflare Radar的AI洞察页面新增了“响应状态码分析”功能,展示AI爬虫收到的各类HTTP状态码分布。例如,总体上看,约74%的请求得到成功响应(2xx),13.7%收到客户端错误(4xx),11.3%被重定向(3xx),1.2%为服务器错误(5xx)。用户还可以按行业或按具体爬虫进行筛选,查看不同爬虫的请求模式差异。这些数据也通过Cloudflare Radar API提供。
这一组合拳让网站管理员既能主动控制AI爬虫接收到的内容,也能宏观了解整个网络生态对AI爬虫的响应方式。Cloudflare鼓励用户通过社区或Discord分享经验与反馈。