AI News HubLIVE
站内改写1 分鐘閱讀

Caddy Defender 外掛:向 AI 爬蟲返回垃圾資料

Caddy Defender 是一個 Caddy 中介軟體,透過 IP 範圍過濾和多種響應後端(如返回垃圾資料、限速等)來阻止或操縱來自 AI 爬蟲和雲服務的請求,保護網站免受訓練資料抓取。

來源Hacker News AI作者: hamburgererror

Caddy Defender 是一款針對 Caddy Web 伺服器的中介軟體外掛,旨在幫助網站管理員阻止或操縱來自 AI 爬蟲及其他不受歡迎的自動化工具的請求。隨著 AI 公司大規模抓取網路資料用於模型訓練,該外掛提供了一種有效的手段來保護網站內容不被濫用。

外掛核心功能基於 IP 範圍過濾。它內建了針對主流 AI 服務(如 OpenAI、DeepSeek、GitHub Copilot、AWS、Google Cloud 等)的預定義 IP 地址段,同時支援使用者透過 Caddyfile 新增自定義 IP 範圍。匹配到目標 IP 後,管理員可以選擇多種響應方式:返回 403 禁止訪問(Block)、返回自定義訊息(Custom)、直接斷開連線(Drop)、返回無意義的垃圾資料以汙染 AI 訓練集(Garbage)、重定向到其他 URL(Redirect)、進行速率限制(Ratelimit),或使用 Tarpit 模式以極慢速度傳輸資料來拖延爬蟲。

安裝方面,最快捷的方式是使用官方提供的 Docker 映象。只需拉取映象並掛載 Caddyfile 配置即可執行。此外,專案也支援其他安裝方法,詳情可查閱線上文件。配置語法簡潔,例如在 Caddyfile 中新增 defender 指令並指定響應器和可選 IP 範圍。

該專案在 GitHub 上開源,採用 MIT 許可證,已獲得超過 550 顆星和 20 個 Fork。社群持續貢獻新的 IP 範圍,包括阿里雲、甲骨文、Cloudflare 等。值得注意的是,Tor 出口節點和 ASN 範圍的 IP 集預設未啟用,需在構建時手動包含。Caddy Defender 是當前應對 AI 資料抓取趨勢的一個實用工具,尤其適合注重內容安全和版權的網站。