2026-05-15 10:32 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

liteparse-server 介紹：用於 AI 工作流的自託管文檔解析與 OCR

liteparse-server 是一個自託管的 HTTP API，封裝了 LiteParse 文檔解析引擎，支持 PDF、Office 文檔和圖像，提供精確的空間佈局文本提取和 OCR 功能。它解決了雲端解析的延遲、成本和隱私問題，適用於 RAG、視覺模型等工作流。支持兩種部署模式：輕量級服務器（無依賴）和完整堆棧（帶 Redis 緩存、限流、OpenTelemetry 追蹤、Prometheus 指標）。

來源LlamaIndex Blog

在 AI 和數據工作流中，處理文檔常常會遇到瓶頸。數據通常以 PDF、Word 文檔、電子表格或掃描圖像的形式存在，而從中提取乾淨的文本比想象中更困難。簡單的提取庫（如 pypdf）會丟失空間佈局，而云端解析 API 雖然準確，但會引入延遲、按頁收費、隱私問題和網絡依賴。同時，僅為了提取文本而運行完整的 LLM 成本高昂且速度緩慢，難以擴展。與之相比，LiteParse 提供了快速、本地、準確的文檔解析，採用開源工具。它能夠精確提取文本的空間佈局信息，為每個文本項生成邊界框，並報告其在頁面上的位置。這種空間保真度對於下游任務（如表格提取、章節檢測和引用定位）至關重要。

liteparse-server 將 LiteParse 封裝為 HTTP API，使其可以作為專用的自託管解析後端，供任何語言或服務使用。它支持多種文檔格式：PDF（原生文本提取及選擇性 OCR）、Office 文檔（Word、PowerPoint、Excel 等，通過 LibreOffice）以及圖像（JPG、PNG、TIFF 等，通過 ImageMagick）。OCR 默認使用 Tesseract.js，並可插件式支持 EasyOCR、PaddleOCR 或自定義 OCR 服務器。

該服務器提供兩個主要端點：POST /parse 用於解析單個文檔，返回帶文本和邊界框的結構化頁面數據或純文本；POST /screenshots 用於將文檔頁面渲染為 PNG 圖像，以 Base64 編碼返回，適合視覺模型和引用場景。端點接受配置字段以進行精細控制。

部署模式有兩種：最小化服務器，無需基礎設施依賴，可在本地使用 Bun/Node 或 Docker 運行；完整堆棧通過 Docker Compose 部署，包含 Redis 緩存、Redis 限流、OpenTelemetry 分佈式追蹤（Jaeger）以及 Prometheus 和 Grafana 監控。緩存使用文件內容的 SHA-256 哈希，避免重複解析。

該項目開源，託管在 GitHub，並提供預構建 Docker 鏡像。用户 pull 鏡像後即可運行服務器，默認監聽 5000 端口。詳細的文檔（包括 OCR 配置、多格式支持、邊界框輸出及 TypeScript 和 Python 庫 API）可在 developers.llamaindex.ai/liteparse 找到。