2026-04-17 21:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

AI訓練重定向功能確保內容規範一致

Cloudflare推出“AI訓練重定向”功能，可一鍵將已驗證的AI訓練爬蟲從已棄用頁面重定向到最新規範內容。該功能利用網頁已有的規範標籤自動生成301重定向，無需修改源站。同時，Cloudflare Radar的AI洞察頁面新增響應狀態碼分析，展示AI爬蟲收到的各類HTTP狀態碼分佈。

來源Cloudflare AI Blog作者: Cam Whiteside

Cloudflare近期推出了一項名為“AI訓練重定向”（Redirects for AI Training）的新功能，旨在解決AI訓練爬蟲忽略頁面中的棄用提示、繼續抓取過時內容的問題。許多網站維護著多個版本的歷史文件，並透過棄用橫幅、noindex標籤和規範標籤（canonical tag）來告知使用者和搜尋引擎哪些內容已過時。然而，Cloudflare的觀察發現，AI訓練爬蟲並不可靠地遵循這些軟性訊號。在其開發者文件站點上，過去30天內AI爬蟲的訪問量達480萬次，其中棄用頁面和當前頁面的被抓取比例幾乎相同。

為了解決這一問題，Cloudflare利用網頁中已廣泛存在的規範標籤——目前約65%-69%的網頁都包含此標籤——作為強制機制。當已驗證的AI訓練爬蟲請求一個包含非自身指向的規範標籤的頁面時，Cloudflare會自動返回一個301永久重定向，將爬蟲引導至規範的URL。該功能涵蓋的爬蟲包括GPTBot、ClaudeBot、Bytespider等，屬於AI爬蟲類別，與AI助手和AI搜尋類別區分開。使用者只需在Cloudflare後臺的AI爬蟲控制（AI Crawl Control）中一鍵開啟即可啟用，無需對源站做任何修改。

需要注意的是，該功能不會回溯糾正已經攝入的訓練資料，也不會覆蓋未經驗證的爬蟲。同時，跨域規範標籤（指向不同域名的規範URL）和自引用的規範標籤（指向自身）不會觸發重定向。與手動配置重定向規則相比，這種方法更具擴充套件性，因為它自動與現有的規範標籤同步，避免了手動維護的麻煩和潛在的不一致。

Cloudflare在其自身開發者文件站點上測試了該功能。啟用前，Legacy Workers文件在2026年3月被OpenAI爬取約4.6萬次，被Anthropic爬取3600次，被Meta爬取1700次。啟用後的一週內，所有AI訓練爬蟲對包含非自引用規範標籤頁面的請求都被重定向，不再返回棄用內容。Cloudflare表示，這將有助於改善AI助手對於舊版工具的回答質量，但受限於訓練管道的封閉性和重新爬取時間的可變性，這一假設仍需持續驗證。

此外，Cloudflare Radar的AI洞察頁面新增了“響應狀態碼分析”功能，展示AI爬蟲收到的各類HTTP狀態碼分佈。例如，總體上看，約74%的請求得到成功響應（2xx），13.7%收到客戶端錯誤（4xx），11.3%被重定向（3xx），1.2%為伺服器錯誤（5xx）。使用者還可以按行業或按具體爬蟲進行篩選，檢視不同爬蟲的請求模式差異。這些資料也透過Cloudflare Radar API提供。

這一組合拳讓網站管理員既能主動控制AI爬蟲接收到的內容，也能宏觀瞭解整個網路生態對AI爬蟲的響應方式。Cloudflare鼓勵使用者透過社群或Discord分享經驗與反饋。