AI News HubLIVE
站內改寫2 分鐘閱讀

AgentCrawl:為AI代理打造的小型自託管爬蟲

AgentCrawl 是一款輕量級自託管爬蟲,專為AI代理設計,能夠將網頁和本地文檔轉換為乾淨的Markdown、文本、鏈接、元數據等。它提供CLI、Python庫、HTTP API和MCP服務器,支持持久化爬取、本地緩存和儀表盤,並誠實報告被反爬機制阻止的頁面。項目尚處於早期階段,社區版聚焦於可訪問的公開內容。

來源Hacker News AI作者: Kenchi010

AgentCrawl 是一個小型、自託管的網絡爬蟲,專為AI代理設計,旨在解決原始HTML混亂且難以被代理直接消費的問題。它能夠將網頁和本地文檔轉化為結構清晰、易於代理讀取的Markdown格式,同時保留鏈接、元數據、JSON-LD等關鍵信息。項目支持通過CLI、Python庫、HTTP API和MCP(Model Context Protocol)服務器調用,覆蓋從開發者的本地實驗到生產級Docker部署的多種場景,使得AI代理無需依賴外部託管服務即可獲取乾淨的網頁上下文。

AgentCrawl 的核心功能包括高質量的內容提取引擎,它智能地選擇語義內容區塊,移除腳本、樣式、導航、頁腳、Cookie橫幅等噪聲元素,並保留表格和代碼塊的格式。持久化爬取功能利用SQLite管理任務、事件、檢查點和失敗重試,確保大規模爬取的可靠性。本地狀態管理包含緩存、使用統計和任務歷史,所有數據都留在用户環境中。此外,項目還提供了一個只讀的儀表盤,用於監控任務狀態和緩存情況,且無需發送數據到外部服務。安全方面,內置了機器人協議支持、SSRF防護、不安全重定向攔截和私有網絡控制,API默認啓用Bearer認證。

值得注意的是,AgentCrawl 明確規劃了社區版的邊界:它致力於處理可訪問的公開網頁和本地文檔。對於Cloudflare等客户端挑戰頁面,AgentCrawl 會直接報告 client_challenge 錯誤,而不是試圖繞過或返回挑戰內容作為有效數據。這種誠實的失敗報告是其社區版的設計原則——保持簡潔和透明。更復雜的功能如託管瀏覽器、代理、計劃任務、Webhooks、團隊管理和企業級控制,則被歸入未來的增強版或託管版。

在提取質量方面,社區引擎專注於輸出穩定、代理友好的Markdown。它會從語義容器中選取主內容,去除頁面裝飾,保留表格和代碼塊,並附加提取出處信息,如來源URL、選擇策略、內容哈希等。項目還包含質量基準測試,可通過本地命令運行驗證。目前支持HTML、Markdown、文本、JSON、XML/Atom和PDF(通過可選擴展)等文檔格式的本地提取。

AgentCrawl 正處於早期但持續開發階段,提供了詳細的文檔、貢獻指南和路線圖。對於需要為AI代理提供可靠且隱私友好的網絡內容獲取工具的開發者來説,AgentCrawl 是一個值得關注的輕量級解決方案。

AgentCrawl:為AI代理打造的小型自託管爬蟲 | AI News Hub