Caddy Defender 外掛:向 AI 爬蟲返回垃圾資料
Caddy Defender 是一個 Caddy 中介軟體,透過 IP 範圍過濾和多種響應後端(如返回垃圾資料、限速等)來阻止或操縱來自 AI 爬蟲和雲服務的請求,保護網站免受訓練資料抓取。
Caddy Defender 是一款針對 Caddy Web 伺服器的中介軟體外掛,旨在幫助網站管理員阻止或操縱來自 AI 爬蟲及其他不受歡迎的自動化工具的請求。隨著 AI 公司大規模抓取網路資料用於模型訓練,該外掛提供了一種有效的手段來保護網站內容不被濫用。
外掛核心功能基於 IP 範圍過濾。它內建了針對主流 AI 服務(如 OpenAI、DeepSeek、GitHub Copilot、AWS、Google Cloud 等)的預定義 IP 地址段,同時支援使用者透過 Caddyfile 新增自定義 IP 範圍。匹配到目標 IP 後,管理員可以選擇多種響應方式:返回 403 禁止訪問(Block)、返回自定義訊息(Custom)、直接斷開連線(Drop)、返回無意義的垃圾資料以汙染 AI 訓練集(Garbage)、重定向到其他 URL(Redirect)、進行速率限制(Ratelimit),或使用 Tarpit 模式以極慢速度傳輸資料來拖延爬蟲。
安裝方面,最快捷的方式是使用官方提供的 Docker 映象。只需拉取映象並掛載 Caddyfile 配置即可執行。此外,專案也支援其他安裝方法,詳情可查閱線上文件。配置語法簡潔,例如在 Caddyfile 中新增 defender 指令並指定響應器和可選 IP 範圍。
該專案在 GitHub 上開源,採用 MIT 許可證,已獲得超過 550 顆星和 20 個 Fork。社群持續貢獻新的 IP 範圍,包括阿里雲、甲骨文、Cloudflare 等。值得注意的是,Tor 出口節點和 ASN 範圍的 IP 集預設未啟用,需在構建時手動包含。Caddy Defender 是當前應對 AI 資料抓取趨勢的一個實用工具,尤其適合注重內容安全和版權的網站。