2026-06-08站内改写1 分钟阅读更新: 2026-06-08

Caddy Defender 插件：向 AI 爬虫返回垃圾数据

Caddy Defender 是一个 Caddy 中间件，通过 IP 范围过滤和多种响应后端（如返回垃圾数据、限速等）来阻止或操纵来自 AI 爬虫和云服务的请求，保护网站免受训练数据抓取。

来源Hacker News AI作者: hamburgererror

Caddy Defender 是一款针对 Caddy Web 服务器的中间件插件，旨在帮助网站管理员阻止或操纵来自 AI 爬虫及其他不受欢迎的自动化工具的请求。随着 AI 公司大规模抓取网络数据用于模型训练，该插件提供了一种有效的手段来保护网站内容不被滥用。

插件核心功能基于 IP 范围过滤。它内置了针对主流 AI 服务（如 OpenAI、DeepSeek、GitHub Copilot、AWS、Google Cloud 等）的预定义 IP 地址段，同时支持用户通过 Caddyfile 添加自定义 IP 范围。匹配到目标 IP 后，管理员可以选择多种响应方式：返回 403 禁止访问（Block）、返回自定义消息（Custom）、直接断开连接（Drop）、返回无意义的垃圾数据以污染 AI 训练集（Garbage）、重定向到其他 URL（Redirect）、进行速率限制（Ratelimit），或使用 Tarpit 模式以极慢速度传输数据来拖延爬虫。

安装方面，最快捷的方式是使用官方提供的 Docker 镜像。只需拉取镜像并挂载 Caddyfile 配置即可运行。此外，项目也支持其他安装方法，详情可查阅在线文档。配置语法简洁，例如在 Caddyfile 中添加 defender 指令并指定响应器和可选 IP 范围。

该项目在 GitHub 上开源，采用 MIT 许可证，已获得超过 550 颗星和 20 个 Fork。社区持续贡献新的 IP 范围，包括阿里云、甲骨文、Cloudflare 等。值得注意的是，Tor 出口节点和 ASN 范围的 IP 集默认未启用，需在构建时手动包含。Caddy Defender 是当前应对 AI 数据抓取趋势的一个实用工具，尤其适合注重内容安全和版权的网站。