AI News HubLIVE
站内改写1 分鐘閱讀

Caddy Defender 插件:向 AI 爬蟲返回垃圾數據

Caddy Defender 是一個 Caddy 中間件,通過 IP 範圍過濾和多種響應後端(如返回垃圾數據、限速等)來阻止或操縱來自 AI 爬蟲和雲服務的請求,保護網站免受訓練數據抓取。

來源Hacker News AI作者: hamburgererror

Caddy Defender 是一款針對 Caddy Web 服務器的中間件插件,旨在幫助網站管理員阻止或操縱來自 AI 爬蟲及其他不受歡迎的自動化工具的請求。隨着 AI 公司大規模抓取網絡數據用於模型訓練,該插件提供了一種有效的手段來保護網站內容不被濫用。

插件核心功能基於 IP 範圍過濾。它內置了針對主流 AI 服務(如 OpenAI、DeepSeek、GitHub Copilot、AWS、Google Cloud 等)的預定義 IP 地址段,同時支持用户通過 Caddyfile 添加自定義 IP 範圍。匹配到目標 IP 後,管理員可以選擇多種響應方式:返回 403 禁止訪問(Block)、返回自定義消息(Custom)、直接斷開連接(Drop)、返回無意義的垃圾數據以污染 AI 訓練集(Garbage)、重定向到其他 URL(Redirect)、進行速率限制(Ratelimit),或使用 Tarpit 模式以極慢速度傳輸數據來拖延爬蟲。

安裝方面,最快捷的方式是使用官方提供的 Docker 鏡像。只需拉取鏡像並掛載 Caddyfile 配置即可運行。此外,項目也支持其他安裝方法,詳情可查閲在線文檔。配置語法簡潔,例如在 Caddyfile 中添加 defender 指令並指定響應器和可選 IP 範圍。

該項目在 GitHub 上開源,採用 MIT 許可證,已獲得超過 550 顆星和 20 個 Fork。社區持續貢獻新的 IP 範圍,包括阿里雲、甲骨文、Cloudflare 等。值得注意的是,Tor 出口節點和 ASN 範圍的 IP 集默認未啓用,需在構建時手動包含。Caddy Defender 是當前應對 AI 數據抓取趨勢的一個實用工具,尤其適合注重內容安全和版權的網站。