AI News HubLIVE
站内改写1 分钟阅读

Caddy Defender 插件:向 AI 爬虫返回垃圾数据

Caddy Defender 是一个 Caddy 中间件,通过 IP 范围过滤和多种响应后端(如返回垃圾数据、限速等)来阻止或操纵来自 AI 爬虫和云服务的请求,保护网站免受训练数据抓取。

来源Hacker News AI作者: hamburgererror

Caddy Defender 是一款针对 Caddy Web 服务器的中间件插件,旨在帮助网站管理员阻止或操纵来自 AI 爬虫及其他不受欢迎的自动化工具的请求。随着 AI 公司大规模抓取网络数据用于模型训练,该插件提供了一种有效的手段来保护网站内容不被滥用。

插件核心功能基于 IP 范围过滤。它内置了针对主流 AI 服务(如 OpenAI、DeepSeek、GitHub Copilot、AWS、Google Cloud 等)的预定义 IP 地址段,同时支持用户通过 Caddyfile 添加自定义 IP 范围。匹配到目标 IP 后,管理员可以选择多种响应方式:返回 403 禁止访问(Block)、返回自定义消息(Custom)、直接断开连接(Drop)、返回无意义的垃圾数据以污染 AI 训练集(Garbage)、重定向到其他 URL(Redirect)、进行速率限制(Ratelimit),或使用 Tarpit 模式以极慢速度传输数据来拖延爬虫。

安装方面,最快捷的方式是使用官方提供的 Docker 镜像。只需拉取镜像并挂载 Caddyfile 配置即可运行。此外,项目也支持其他安装方法,详情可查阅在线文档。配置语法简洁,例如在 Caddyfile 中添加 defender 指令并指定响应器和可选 IP 范围。

该项目在 GitHub 上开源,采用 MIT 许可证,已获得超过 550 颗星和 20 个 Fork。社区持续贡献新的 IP 范围,包括阿里云、甲骨文、Cloudflare 等。值得注意的是,Tor 出口节点和 ASN 范围的 IP 集默认未启用,需在构建时手动包含。Caddy Defender 是当前应对 AI 数据抓取趋势的一个实用工具,尤其适合注重内容安全和版权的网站。