2026-04-17 21:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

AI训练重定向功能确保内容规范一致

Cloudflare推出“AI训练重定向”功能，可一键将已验证的AI训练爬虫从已弃用页面重定向到最新规范内容。该功能利用网页已有的规范标签自动生成301重定向，无需修改源站。同时，Cloudflare Radar的AI洞察页面新增响应状态码分析，展示AI爬虫收到的各类HTTP状态码分布。

来源Cloudflare AI Blog作者: Cam Whiteside

Cloudflare近期推出了一项名为“AI训练重定向”（Redirects for AI Training）的新功能，旨在解决AI训练爬虫忽略页面中的弃用提示、继续抓取过时内容的问题。许多网站维护着多个版本的历史文档，并通过弃用横幅、noindex标签和规范标签（canonical tag）来告知用户和搜索引擎哪些内容已过时。然而，Cloudflare的观察发现，AI训练爬虫并不可靠地遵循这些软性信号。在其开发者文档站点上，过去30天内AI爬虫的访问量达480万次，其中弃用页面和当前页面的被抓取比例几乎相同。

为了解决这一问题，Cloudflare利用网页中已广泛存在的规范标签——目前约65%-69%的网页都包含此标签——作为强制机制。当已验证的AI训练爬虫请求一个包含非自身指向的规范标签的页面时，Cloudflare会自动返回一个301永久重定向，将爬虫引导至规范的URL。该功能涵盖的爬虫包括GPTBot、ClaudeBot、Bytespider等，属于AI爬虫类别，与AI助手和AI搜索类别区分开。用户只需在Cloudflare后台的AI爬虫控制（AI Crawl Control）中一键开启即可启用，无需对源站做任何修改。

需要注意的是，该功能不会回溯纠正已经摄入的训练数据，也不会覆盖未经验证的爬虫。同时，跨域规范标签（指向不同域名的规范URL）和自引用的规范标签（指向自身）不会触发重定向。与手动配置重定向规则相比，这种方法更具扩展性，因为它自动与现有的规范标签同步，避免了手动维护的麻烦和潜在的不一致。

Cloudflare在其自身开发者文档站点上测试了该功能。启用前，Legacy Workers文档在2026年3月被OpenAI爬取约4.6万次，被Anthropic爬取3600次，被Meta爬取1700次。启用后的一周内，所有AI训练爬虫对包含非自引用规范标签页面的请求都被重定向，不再返回弃用内容。Cloudflare表示，这将有助于改善AI助手对于旧版工具的回答质量，但受限于训练管道的封闭性和重新爬取时间的可变性，这一假设仍需持续验证。

此外，Cloudflare Radar的AI洞察页面新增了“响应状态码分析”功能，展示AI爬虫收到的各类HTTP状态码分布。例如，总体上看，约74%的请求得到成功响应（2xx），13.7%收到客户端错误（4xx），11.3%被重定向（3xx），1.2%为服务器错误（5xx）。用户还可以按行业或按具体爬虫进行筛选，查看不同爬虫的请求模式差异。这些数据也通过Cloudflare Radar API提供。

这一组合拳让网站管理员既能主动控制AI爬虫接收到的内容，也能宏观了解整个网络生态对AI爬虫的响应方式。Cloudflare鼓励用户通过社区或Discord分享经验与反馈。