AI News HubLIVE
站內改寫2 分鐘閱讀

AI訓練重定向功能確保內容規範一致

Cloudflare推出“AI訓練重定向”功能,可一鍵將已驗證的AI訓練爬蟲從已棄用頁面重定向到最新規範內容。該功能利用網頁已有的規範標籤自動生成301重定向,無需修改源站。同時,Cloudflare Radar的AI洞察頁面新增響應狀態碼分析,展示AI爬蟲收到的各類HTTP狀態碼分佈。

來源Cloudflare AI Blog作者: Cam Whiteside

Cloudflare近期推出了一項名為“AI訓練重定向”(Redirects for AI Training)的新功能,旨在解決AI訓練爬蟲忽略頁面中的棄用提示、繼續抓取過時內容的問題。許多網站維護著多個版本的歷史文件,並透過棄用橫幅、noindex標籤和規範標籤(canonical tag)來告知使用者和搜尋引擎哪些內容已過時。然而,Cloudflare的觀察發現,AI訓練爬蟲並不可靠地遵循這些軟性訊號。在其開發者文件站點上,過去30天內AI爬蟲的訪問量達480萬次,其中棄用頁面和當前頁面的被抓取比例幾乎相同。

為了解決這一問題,Cloudflare利用網頁中已廣泛存在的規範標籤——目前約65%-69%的網頁都包含此標籤——作為強制機制。當已驗證的AI訓練爬蟲請求一個包含非自身指向的規範標籤的頁面時,Cloudflare會自動返回一個301永久重定向,將爬蟲引導至規範的URL。該功能涵蓋的爬蟲包括GPTBot、ClaudeBot、Bytespider等,屬於AI爬蟲類別,與AI助手和AI搜尋類別區分開。使用者只需在Cloudflare後臺的AI爬蟲控制(AI Crawl Control)中一鍵開啟即可啟用,無需對源站做任何修改。

需要注意的是,該功能不會回溯糾正已經攝入的訓練資料,也不會覆蓋未經驗證的爬蟲。同時,跨域規範標籤(指向不同域名的規範URL)和自引用的規範標籤(指向自身)不會觸發重定向。與手動配置重定向規則相比,這種方法更具擴充套件性,因為它自動與現有的規範標籤同步,避免了手動維護的麻煩和潛在的不一致。

Cloudflare在其自身開發者文件站點上測試了該功能。啟用前,Legacy Workers文件在2026年3月被OpenAI爬取約4.6萬次,被Anthropic爬取3600次,被Meta爬取1700次。啟用後的一週內,所有AI訓練爬蟲對包含非自引用規範標籤頁面的請求都被重定向,不再返回棄用內容。Cloudflare表示,這將有助於改善AI助手對於舊版工具的回答質量,但受限於訓練管道的封閉性和重新爬取時間的可變性,這一假設仍需持續驗證。

此外,Cloudflare Radar的AI洞察頁面新增了“響應狀態碼分析”功能,展示AI爬蟲收到的各類HTTP狀態碼分佈。例如,總體上看,約74%的請求得到成功響應(2xx),13.7%收到客戶端錯誤(4xx),11.3%被重定向(3xx),1.2%為伺服器錯誤(5xx)。使用者還可以按行業或按具體爬蟲進行篩選,檢視不同爬蟲的請求模式差異。這些資料也透過Cloudflare Radar API提供。

這一組合拳讓網站管理員既能主動控制AI爬蟲接收到的內容,也能宏觀瞭解整個網路生態對AI爬蟲的響應方式。Cloudflare鼓勵使用者透過社群或Discord分享經驗與反饋。