PageToMD – 將網頁轉換為乾淨Markdown的CLI工具,專為AI代理設計
PageToMD 是一款命令列工具,可將任何網頁轉換為乾淨、帶有YAML前置後設資料的Markdown格式,適合AI代理工作流(如RAG和LLM提示)。支援靜態和JS渲染頁面,具備重試、robots.txt遵守、原子寫入等功能。
PageToMD 是一款開源的命令列工具,旨在將任何網頁轉換為乾淨、結構化的 Markdown 格式,並自動新增 YAML 前置後設資料,非常適合直接用於 AI 代理工作流程,如向量資料庫儲存或大語言模型(LLM)提示。其設計初衷是彌補傳統工具如 pandoc 或 curl+sed 組合的不足——它們無法提取主要內容、無法處理重定向或無法自動新增後設資料。PageToMD 整合了完整的管道:從抓取、提取、轉換到寫入,僅需一條命令。
安裝方式靈活,推薦使用 pipx 或 uv 進行全域性安裝,也可透過 uv run 無需安裝直接執行。對於包含 JavaScript 的現代網頁(SPA),可額外安裝 Playwright 渲染引擎,實現靜態與動態頁面的無縫切換。預設使用 httpx 抓取器,速度極快;當檢測到頁面內容不足或包含 SPA 標記時,auto 模式會自動回退到 Playwright。
快速使用非常簡單:pagetomd https://example.com 即可根據頁面標題生成 Markdown 檔案。支援輸出到標準輸出(-o -)以便直接透過管道傳遞給 LLM 或其他工具。批次處理時,可從檔案讀取 URL 列表逐行轉換。
核心功能包括:單頁面模式與爬蟲模式(--crawl),可遞迴抓取指定路徑下的所有頁面;豐富的選項控制輸出行為,如是否保留註釋、圖片、連結,以及表格處理策略等;內建重試機制、超時控制、robots.txt 遵守等可靠性保證。輸出檔案始終包含 YAML 前端後設資料(URL、標題、作者、日期等),並且預設新增抓取時間戳,透過 --no-fetched-at 可生成位元組級一致的輸出。
安全性方面,PageToMD 預設拒絕訪問私有、迴環、鏈路本地等內部地址,且沒有覆蓋選項,確保工具僅用於公開 URL。程式碼質量上有嚴格的測試覆蓋率要求(整體 85%,關鍵模組 90%)。該專案採用 Business Source License 1.1 許可證,原始碼可用且非商業使用免費,預計在 2030 年 6 月轉換為 MIT 許可證。
總之,PageToMD 為 AI 開發者提供了一個可靠、易用且功能豐富的網頁到 Markdown 轉換工具,顯著簡化了資料準備流程。