AI News HubLIVE
站內改寫2 分鐘閱讀

AgentCrawl:為AI代理打造的小型自託管爬蟲

AgentCrawl 是一款輕量級自託管爬蟲,專為AI代理設計,能夠將網頁和本地文件轉換為乾淨的Markdown、文本、連結、後設資料等。它提供CLI、Python庫、HTTP API和MCP伺服器,支援持久化爬取、本地快取和儀表盤,並誠實報告被反爬機制阻止的頁面。專案尚處於早期階段,社群版聚焦於可訪問的公開內容。

來源Hacker News AI作者: Kenchi010

AgentCrawl 是一個小型、自託管的網路爬蟲,專為AI代理設計,旨在解決原始HTML混亂且難以被代理直接消費的問題。它能夠將網頁和本地文件轉化為結構清晰、易於代理讀取的Markdown格式,同時保留連結、後設資料、JSON-LD等關鍵資訊。專案支援透過CLI、Python庫、HTTP API和MCP(Model Context Protocol)伺服器呼叫,覆蓋從開發者的本地實驗到生產級Docker部署的多種場景,使得AI代理無需依賴外部託管服務即可獲取乾淨的網頁上下文。

AgentCrawl 的核心功能包括高質量的內容提取引擎,它智慧地選擇語義內容區塊,移除指令碼、樣式、導航、頁尾、Cookie橫幅等噪聲元素,並保留表格和程式碼塊的格式。持久化爬取功能利用SQLite管理任務、事件、檢查點和失敗重試,確保大規模爬取的可靠性。本地狀態管理包含快取、使用統計和任務歷史,所有資料都留在使用者環境中。此外,專案還提供了一個只讀的儀表盤,用於監控任務狀態和快取情況,且無需傳送資料到外部服務。安全方面,內建了機器人協議支援、SSRF防護、不安全重定向攔截和私有網路控制,API預設啟用Bearer認證。

值得注意的是,AgentCrawl 明確規劃了社群版的邊界:它致力於處理可訪問的公開網頁和本地文件。對於Cloudflare等客戶端挑戰頁面,AgentCrawl 會直接報告 client_challenge 錯誤,而不是試圖繞過或返回挑戰內容作為有效資料。這種誠實的失敗報告是其社群版的設計原則——保持簡潔和透明。更復雜的功能如託管瀏覽器、代理、計劃任務、Webhooks、團隊管理和企業級控制,則被歸入未來的增強版或託管版。

在提取質量方面,社群引擎專注於輸出穩定、代理友好的Markdown。它會從語義容器中選取主內容,去除頁面裝飾,保留表格和程式碼塊,並附加提取出處資訊,如來源URL、選擇策略、內容雜湊等。專案還包含質量基準測試,可透過本地命令執行驗證。目前支援HTML、Markdown、文本、JSON、XML/Atom和PDF(透過可選擴充套件)等文件格式的本地提取。

AgentCrawl 正處於早期但持續開發階段,提供了詳細的文件、貢獻指南和路線圖。對於需要為AI代理提供可靠且隱私友好的網路內容獲取工具的開發者來說,AgentCrawl 是一個值得關注的輕量級解決方案。

AgentCrawl:為AI代理打造的小型自託管爬蟲 | AI News Hub