2026-06-29 01:30 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-29 02:23 UTC+8

AgentCrawl：為AI代理打造的小型自託管爬蟲

AgentCrawl 是一款輕量級自託管爬蟲，專為AI代理設計，能夠將網頁和本地文件轉換為乾淨的Markdown、文本、連結、後設資料等。它提供CLI、Python庫、HTTP API和MCP伺服器，支援持久化爬取、本地快取和儀表盤，並誠實報告被反爬機制阻止的頁面。專案尚處於早期階段，社群版聚焦於可訪問的公開內容。

來源Hacker News AI作者: Kenchi010

AgentCrawl 是一個小型、自託管的網路爬蟲，專為AI代理設計，旨在解決原始HTML混亂且難以被代理直接消費的問題。它能夠將網頁和本地文件轉化為結構清晰、易於代理讀取的Markdown格式，同時保留連結、後設資料、JSON-LD等關鍵資訊。專案支援透過CLI、Python庫、HTTP API和MCP（Model Context Protocol）伺服器呼叫，覆蓋從開發者的本地實驗到生產級Docker部署的多種場景，使得AI代理無需依賴外部託管服務即可獲取乾淨的網頁上下文。

AgentCrawl 的核心功能包括高質量的內容提取引擎，它智慧地選擇語義內容區塊，移除指令碼、樣式、導航、頁尾、Cookie橫幅等噪聲元素，並保留表格和程式碼塊的格式。持久化爬取功能利用SQLite管理任務、事件、檢查點和失敗重試，確保大規模爬取的可靠性。本地狀態管理包含快取、使用統計和任務歷史，所有資料都留在使用者環境中。此外，專案還提供了一個只讀的儀表盤，用於監控任務狀態和快取情況，且無需傳送資料到外部服務。安全方面，內建了機器人協議支援、SSRF防護、不安全重定向攔截和私有網路控制，API預設啟用Bearer認證。

值得注意的是，AgentCrawl 明確規劃了社群版的邊界：它致力於處理可訪問的公開網頁和本地文件。對於Cloudflare等客戶端挑戰頁面，AgentCrawl 會直接報告 client_challenge 錯誤，而不是試圖繞過或返回挑戰內容作為有效資料。這種誠實的失敗報告是其社群版的設計原則——保持簡潔和透明。更復雜的功能如託管瀏覽器、代理、計劃任務、Webhooks、團隊管理和企業級控制，則被歸入未來的增強版或託管版。

在提取質量方面，社群引擎專注於輸出穩定、代理友好的Markdown。它會從語義容器中選取主內容，去除頁面裝飾，保留表格和程式碼塊，並附加提取出處資訊，如來源URL、選擇策略、內容雜湊等。專案還包含質量基準測試，可透過本地命令執行驗證。目前支援HTML、Markdown、文本、JSON、XML/Atom和PDF（透過可選擴充套件）等文件格式的本地提取。

AgentCrawl 正處於早期但持續開發階段，提供了詳細的文件、貢獻指南和路線圖。對於需要為AI代理提供可靠且隱私友好的網路內容獲取工具的開發者來說，AgentCrawl 是一個值得關注的輕量級解決方案。