AI News HubLIVE
站内改写2 分钟阅读

AgentCrawl:为AI代理打造的小型自托管爬虫

AgentCrawl 是一款轻量级自托管爬虫,专为AI代理设计,能够将网页和本地文档转换为干净的Markdown、文本、链接、元数据等。它提供CLI、Python库、HTTP API和MCP服务器,支持持久化爬取、本地缓存和仪表盘,并诚实报告被反爬机制阻止的页面。项目尚处于早期阶段,社区版聚焦于可访问的公开内容。

来源Hacker News AI作者: Kenchi010

AgentCrawl 是一个小型、自托管的网络爬虫,专为AI代理设计,旨在解决原始HTML混乱且难以被代理直接消费的问题。它能够将网页和本地文档转化为结构清晰、易于代理读取的Markdown格式,同时保留链接、元数据、JSON-LD等关键信息。项目支持通过CLI、Python库、HTTP API和MCP(Model Context Protocol)服务器调用,覆盖从开发者的本地实验到生产级Docker部署的多种场景,使得AI代理无需依赖外部托管服务即可获取干净的网页上下文。

AgentCrawl 的核心功能包括高质量的内容提取引擎,它智能地选择语义内容区块,移除脚本、样式、导航、页脚、Cookie横幅等噪声元素,并保留表格和代码块的格式。持久化爬取功能利用SQLite管理任务、事件、检查点和失败重试,确保大规模爬取的可靠性。本地状态管理包含缓存、使用统计和任务历史,所有数据都留在用户环境中。此外,项目还提供了一个只读的仪表盘,用于监控任务状态和缓存情况,且无需发送数据到外部服务。安全方面,内置了机器人协议支持、SSRF防护、不安全重定向拦截和私有网络控制,API默认启用Bearer认证。

值得注意的是,AgentCrawl 明确规划了社区版的边界:它致力于处理可访问的公开网页和本地文档。对于Cloudflare等客户端挑战页面,AgentCrawl 会直接报告 client_challenge 错误,而不是试图绕过或返回挑战内容作为有效数据。这种诚实的失败报告是其社区版的设计原则——保持简洁和透明。更复杂的功能如托管浏览器、代理、计划任务、Webhooks、团队管理和企业级控制,则被归入未来的增强版或托管版。

在提取质量方面,社区引擎专注于输出稳定、代理友好的Markdown。它会从语义容器中选取主内容,去除页面装饰,保留表格和代码块,并附加提取出处信息,如来源URL、选择策略、内容哈希等。项目还包含质量基准测试,可通过本地命令运行验证。目前支持HTML、Markdown、文本、JSON、XML/Atom和PDF(通过可选扩展)等文档格式的本地提取。

AgentCrawl 正处于早期但持续开发阶段,提供了详细的文档、贡献指南和路线图。对于需要为AI代理提供可靠且隐私友好的网络内容获取工具的开发者来说,AgentCrawl 是一个值得关注的轻量级解决方案。

AgentCrawl:为AI代理打造的小型自托管爬虫 | AI News Hub