AI News HubLIVE
站內改寫2 分鐘閱讀

AI訓練重定向功能確保內容規範一致

Cloudflare推出“AI訓練重定向”功能,可一鍵將已驗證的AI訓練爬蟲從已棄用頁面重定向到最新規範內容。該功能利用網頁已有的規範標籤自動生成301重定向,無需修改源站。同時,Cloudflare Radar的AI洞察頁面新增響應狀態碼分析,展示AI爬蟲收到的各類HTTP狀態碼分佈。

來源Cloudflare AI Blog作者: Cam Whiteside

Cloudflare近期推出了一項名為“AI訓練重定向”(Redirects for AI Training)的新功能,旨在解決AI訓練爬蟲忽略頁面中的棄用提示、繼續抓取過時內容的問題。許多網站維護着多個版本的歷史文檔,並通過棄用橫幅、noindex標籤和規範標籤(canonical tag)來告知用户和搜索引擎哪些內容已過時。然而,Cloudflare的觀察發現,AI訓練爬蟲並不可靠地遵循這些軟性信號。在其開發者文檔站點上,過去30天內AI爬蟲的訪問量達480萬次,其中棄用頁面和當前頁面的被抓取比例幾乎相同。

為了解決這一問題,Cloudflare利用網頁中已廣泛存在的規範標籤——目前約65%-69%的網頁都包含此標籤——作為強制機制。當已驗證的AI訓練爬蟲請求一個包含非自身指向的規範標籤的頁面時,Cloudflare會自動返回一個301永久重定向,將爬蟲引導至規範的URL。該功能涵蓋的爬蟲包括GPTBot、ClaudeBot、Bytespider等,屬於AI爬蟲類別,與AI助手和AI搜索類別區分開。用户只需在Cloudflare後台的AI爬蟲控制(AI Crawl Control)中一鍵開啓即可啓用,無需對源站做任何修改。

需要注意的是,該功能不會回溯糾正已經攝入的訓練數據,也不會覆蓋未經驗證的爬蟲。同時,跨域規範標籤(指向不同域名的規範URL)和自引用的規範標籤(指向自身)不會觸發重定向。與手動配置重定向規則相比,這種方法更具擴展性,因為它自動與現有的規範標籤同步,避免了手動維護的麻煩和潛在的不一致。

Cloudflare在其自身開發者文檔站點上測試了該功能。啓用前,Legacy Workers文檔在2026年3月被OpenAI爬取約4.6萬次,被Anthropic爬取3600次,被Meta爬取1700次。啓用後的一週內,所有AI訓練爬蟲對包含非自引用規範標籤頁面的請求都被重定向,不再返回棄用內容。Cloudflare表示,這將有助於改善AI助手對於舊版工具的回答質量,但受限於訓練管道的封閉性和重新爬取時間的可變性,這一假設仍需持續驗證。

此外,Cloudflare Radar的AI洞察頁面新增了“響應狀態碼分析”功能,展示AI爬蟲收到的各類HTTP狀態碼分佈。例如,總體上看,約74%的請求得到成功響應(2xx),13.7%收到客户端錯誤(4xx),11.3%被重定向(3xx),1.2%為服務器錯誤(5xx)。用户還可以按行業或按具體爬蟲進行篩選,查看不同爬蟲的請求模式差異。這些數據也通過Cloudflare Radar API提供。

這一組合拳讓網站管理員既能主動控制AI爬蟲接收到的內容,也能宏觀瞭解整個網絡生態對AI爬蟲的響應方式。Cloudflare鼓勵用户通過社區或Discord分享經驗與反饋。