2026-06-29 01:30 UTC+8站内改写2 分钟阅读更新: 2026-06-29 02:23 UTC+8

AgentCrawl：为AI代理打造的小型自托管爬虫

AgentCrawl 是一款轻量级自托管爬虫，专为AI代理设计，能够将网页和本地文档转换为干净的Markdown、文本、链接、元数据等。它提供CLI、Python库、HTTP API和MCP服务器，支持持久化爬取、本地缓存和仪表盘，并诚实报告被反爬机制阻止的页面。项目尚处于早期阶段，社区版聚焦于可访问的公开内容。

来源Hacker News AI作者: Kenchi010

AgentCrawl 是一个小型、自托管的网络爬虫，专为AI代理设计，旨在解决原始HTML混乱且难以被代理直接消费的问题。它能够将网页和本地文档转化为结构清晰、易于代理读取的Markdown格式，同时保留链接、元数据、JSON-LD等关键信息。项目支持通过CLI、Python库、HTTP API和MCP（Model Context Protocol）服务器调用，覆盖从开发者的本地实验到生产级Docker部署的多种场景，使得AI代理无需依赖外部托管服务即可获取干净的网页上下文。

AgentCrawl 的核心功能包括高质量的内容提取引擎，它智能地选择语义内容区块，移除脚本、样式、导航、页脚、Cookie横幅等噪声元素，并保留表格和代码块的格式。持久化爬取功能利用SQLite管理任务、事件、检查点和失败重试，确保大规模爬取的可靠性。本地状态管理包含缓存、使用统计和任务历史，所有数据都留在用户环境中。此外，项目还提供了一个只读的仪表盘，用于监控任务状态和缓存情况，且无需发送数据到外部服务。安全方面，内置了机器人协议支持、SSRF防护、不安全重定向拦截和私有网络控制，API默认启用Bearer认证。

值得注意的是，AgentCrawl 明确规划了社区版的边界：它致力于处理可访问的公开网页和本地文档。对于Cloudflare等客户端挑战页面，AgentCrawl 会直接报告 client_challenge 错误，而不是试图绕过或返回挑战内容作为有效数据。这种诚实的失败报告是其社区版的设计原则——保持简洁和透明。更复杂的功能如托管浏览器、代理、计划任务、Webhooks、团队管理和企业级控制，则被归入未来的增强版或托管版。

在提取质量方面，社区引擎专注于输出稳定、代理友好的Markdown。它会从语义容器中选取主内容，去除页面装饰，保留表格和代码块，并附加提取出处信息，如来源URL、选择策略、内容哈希等。项目还包含质量基准测试，可通过本地命令运行验证。目前支持HTML、Markdown、文本、JSON、XML/Atom和PDF（通过可选扩展）等文档格式的本地提取。

AgentCrawl 正处于早期但持续开发阶段，提供了详细的文档、贡献指南和路线图。对于需要为AI代理提供可靠且隐私友好的网络内容获取工具的开发者来说，AgentCrawl 是一个值得关注的轻量级解决方案。