PageToMD – 將網頁轉換為乾淨Markdown的CLI工具,專為AI代理設計
PageToMD 是一款命令行工具,可將任何網頁轉換為乾淨、帶有YAML前置元數據的Markdown格式,適合AI代理工作流(如RAG和LLM提示)。支持靜態和JS渲染頁面,具備重試、robots.txt遵守、原子寫入等功能。
PageToMD 是一款開源的命令行工具,旨在將任何網頁轉換為乾淨、結構化的 Markdown 格式,並自動添加 YAML 前置元數據,非常適合直接用於 AI 代理工作流程,如向量數據庫存儲或大語言模型(LLM)提示。其設計初衷是彌補傳統工具如 pandoc 或 curl+sed 組合的不足——它們無法提取主要內容、無法處理重定向或無法自動添加元數據。PageToMD 集成了完整的管道:從抓取、提取、轉換到寫入,僅需一條命令。
安裝方式靈活,推薦使用 pipx 或 uv 進行全局安裝,也可通過 uv run 無需安裝直接運行。對於包含 JavaScript 的現代網頁(SPA),可額外安裝 Playwright 渲染引擎,實現靜態與動態頁面的無縫切換。默認使用 httpx 抓取器,速度極快;當檢測到頁面內容不足或包含 SPA 標記時,auto 模式會自動回退到 Playwright。
快速使用非常簡單:pagetomd https://example.com 即可根據頁面標題生成 Markdown 文件。支持輸出到標準輸出(-o -)以便直接通過管道傳遞給 LLM 或其他工具。批量處理時,可從文件讀取 URL 列表逐行轉換。
核心功能包括:單頁面模式與爬蟲模式(--crawl),可遞歸抓取指定路徑下的所有頁面;豐富的選項控制輸出行為,如是否保留註釋、圖片、鏈接,以及表格處理策略等;內置重試機制、超時控制、robots.txt 遵守等可靠性保證。輸出文件始終包含 YAML 前端元數據(URL、標題、作者、日期等),並且默認添加抓取時間戳,通過 --no-fetched-at 可生成字節級一致的輸出。
安全性方面,PageToMD 默認拒絕訪問私有、迴環、鏈路本地等內部地址,且沒有覆蓋選項,確保工具僅用於公開 URL。代碼質量上有嚴格的測試覆蓋率要求(整體 85%,關鍵模塊 90%)。該項目採用 Business Source License 1.1 許可證,源代碼可用且非商業使用免費,預計在 2030 年 6 月轉換為 MIT 許可證。
總之,PageToMD 為 AI 開發者提供了一個可靠、易用且功能豐富的網頁到 Markdown 轉換工具,顯著簡化了數據準備流程。