2026-04-17 21:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

AI訓練重定向功能確保內容規範一致

Cloudflare推出“AI訓練重定向”功能，可一鍵將已驗證的AI訓練爬蟲從已棄用頁面重定向到最新規範內容。該功能利用網頁已有的規範標籤自動生成301重定向，無需修改源站。同時，Cloudflare Radar的AI洞察頁面新增響應狀態碼分析，展示AI爬蟲收到的各類HTTP狀態碼分佈。

來源Cloudflare AI Blog作者: Cam Whiteside

Cloudflare近期推出了一項名為“AI訓練重定向”（Redirects for AI Training）的新功能，旨在解決AI訓練爬蟲忽略頁面中的棄用提示、繼續抓取過時內容的問題。許多網站維護着多個版本的歷史文檔，並通過棄用橫幅、noindex標籤和規範標籤（canonical tag）來告知用户和搜索引擎哪些內容已過時。然而，Cloudflare的觀察發現，AI訓練爬蟲並不可靠地遵循這些軟性信號。在其開發者文檔站點上，過去30天內AI爬蟲的訪問量達480萬次，其中棄用頁面和當前頁面的被抓取比例幾乎相同。

為了解決這一問題，Cloudflare利用網頁中已廣泛存在的規範標籤——目前約65%-69%的網頁都包含此標籤——作為強制機制。當已驗證的AI訓練爬蟲請求一個包含非自身指向的規範標籤的頁面時，Cloudflare會自動返回一個301永久重定向，將爬蟲引導至規範的URL。該功能涵蓋的爬蟲包括GPTBot、ClaudeBot、Bytespider等，屬於AI爬蟲類別，與AI助手和AI搜索類別區分開。用户只需在Cloudflare後台的AI爬蟲控制（AI Crawl Control）中一鍵開啓即可啓用，無需對源站做任何修改。

需要注意的是，該功能不會回溯糾正已經攝入的訓練數據，也不會覆蓋未經驗證的爬蟲。同時，跨域規範標籤（指向不同域名的規範URL）和自引用的規範標籤（指向自身）不會觸發重定向。與手動配置重定向規則相比，這種方法更具擴展性，因為它自動與現有的規範標籤同步，避免了手動維護的麻煩和潛在的不一致。

Cloudflare在其自身開發者文檔站點上測試了該功能。啓用前，Legacy Workers文檔在2026年3月被OpenAI爬取約4.6萬次，被Anthropic爬取3600次，被Meta爬取1700次。啓用後的一週內，所有AI訓練爬蟲對包含非自引用規範標籤頁面的請求都被重定向，不再返回棄用內容。Cloudflare表示，這將有助於改善AI助手對於舊版工具的回答質量，但受限於訓練管道的封閉性和重新爬取時間的可變性，這一假設仍需持續驗證。

此外，Cloudflare Radar的AI洞察頁面新增了“響應狀態碼分析”功能，展示AI爬蟲收到的各類HTTP狀態碼分佈。例如，總體上看，約74%的請求得到成功響應（2xx），13.7%收到客户端錯誤（4xx），11.3%被重定向（3xx），1.2%為服務器錯誤（5xx）。用户還可以按行業或按具體爬蟲進行篩選，查看不同爬蟲的請求模式差異。這些數據也通過Cloudflare Radar API提供。

這一組合拳讓網站管理員既能主動控制AI爬蟲接收到的內容，也能宏觀瞭解整個網絡生態對AI爬蟲的響應方式。Cloudflare鼓勵用户通過社區或Discord分享經驗與反饋。