Caddy Defender 插件:向 AI 爬虫返回垃圾数据
Caddy Defender 是一个 Caddy 中间件,通过 IP 范围过滤和多种响应后端(如返回垃圾数据、限速等)来阻止或操纵来自 AI 爬虫和云服务的请求,保护网站免受训练数据抓取。
Caddy Defender 是一款针对 Caddy Web 服务器的中间件插件,旨在帮助网站管理员阻止或操纵来自 AI 爬虫及其他不受欢迎的自动化工具的请求。随着 AI 公司大规模抓取网络数据用于模型训练,该插件提供了一种有效的手段来保护网站内容不被滥用。
插件核心功能基于 IP 范围过滤。它内置了针对主流 AI 服务(如 OpenAI、DeepSeek、GitHub Copilot、AWS、Google Cloud 等)的预定义 IP 地址段,同时支持用户通过 Caddyfile 添加自定义 IP 范围。匹配到目标 IP 后,管理员可以选择多种响应方式:返回 403 禁止访问(Block)、返回自定义消息(Custom)、直接断开连接(Drop)、返回无意义的垃圾数据以污染 AI 训练集(Garbage)、重定向到其他 URL(Redirect)、进行速率限制(Ratelimit),或使用 Tarpit 模式以极慢速度传输数据来拖延爬虫。
安装方面,最快捷的方式是使用官方提供的 Docker 镜像。只需拉取镜像并挂载 Caddyfile 配置即可运行。此外,项目也支持其他安装方法,详情可查阅在线文档。配置语法简洁,例如在 Caddyfile 中添加 defender 指令并指定响应器和可选 IP 范围。
该项目在 GitHub 上开源,采用 MIT 许可证,已获得超过 550 颗星和 20 个 Fork。社区持续贡献新的 IP 范围,包括阿里云、甲骨文、Cloudflare 等。值得注意的是,Tor 出口节点和 ASN 范围的 IP 集默认未启用,需在构建时手动包含。Caddy Defender 是当前应对 AI 数据抓取趋势的一个实用工具,尤其适合注重内容安全和版权的网站。