Caddy Defender 插件:向 AI 爬蟲返回垃圾數據
Caddy Defender 是一個 Caddy 中間件,通過 IP 範圍過濾和多種響應後端(如返回垃圾數據、限速等)來阻止或操縱來自 AI 爬蟲和雲服務的請求,保護網站免受訓練數據抓取。
Caddy Defender 是一款針對 Caddy Web 服務器的中間件插件,旨在幫助網站管理員阻止或操縱來自 AI 爬蟲及其他不受歡迎的自動化工具的請求。隨着 AI 公司大規模抓取網絡數據用於模型訓練,該插件提供了一種有效的手段來保護網站內容不被濫用。
插件核心功能基於 IP 範圍過濾。它內置了針對主流 AI 服務(如 OpenAI、DeepSeek、GitHub Copilot、AWS、Google Cloud 等)的預定義 IP 地址段,同時支持用户通過 Caddyfile 添加自定義 IP 範圍。匹配到目標 IP 後,管理員可以選擇多種響應方式:返回 403 禁止訪問(Block)、返回自定義消息(Custom)、直接斷開連接(Drop)、返回無意義的垃圾數據以污染 AI 訓練集(Garbage)、重定向到其他 URL(Redirect)、進行速率限制(Ratelimit),或使用 Tarpit 模式以極慢速度傳輸數據來拖延爬蟲。
安裝方面,最快捷的方式是使用官方提供的 Docker 鏡像。只需拉取鏡像並掛載 Caddyfile 配置即可運行。此外,項目也支持其他安裝方法,詳情可查閲在線文檔。配置語法簡潔,例如在 Caddyfile 中添加 defender 指令並指定響應器和可選 IP 範圍。
該項目在 GitHub 上開源,採用 MIT 許可證,已獲得超過 550 顆星和 20 個 Fork。社區持續貢獻新的 IP 範圍,包括阿里雲、甲骨文、Cloudflare 等。值得注意的是,Tor 出口節點和 ASN 範圍的 IP 集默認未啓用,需在構建時手動包含。Caddy Defender 是當前應對 AI 數據抓取趨勢的一個實用工具,尤其適合注重內容安全和版權的網站。