2026-05-15 10:32 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

liteparse-server 介紹：用於 AI 工作流的自託管文件解析與 OCR

liteparse-server 是一個自託管的 HTTP API，封裝了 LiteParse 文件解析引擎，支援 PDF、Office 文件和影像，提供精確的空間佈局文本提取和 OCR 功能。它解決了雲端解析的延遲、成本和隱私問題，適用於 RAG、視覺模型等工作流。支援兩種部署模式：輕量級伺服器（無依賴）和完整堆疊（帶 Redis 快取、限流、OpenTelemetry 追蹤、Prometheus 指標）。

來源LlamaIndex Blog

在 AI 和資料工作流中，處理文件常常會遇到瓶頸。資料通常以 PDF、Word 文件、電子表格或掃描影像的形式存在，而從中提取乾淨的文本比想象中更困難。簡單的提取庫（如 pypdf）會丟失空間佈局，而云端解析 API 雖然準確，但會引入延遲、按頁收費、隱私問題和網路依賴。同時，僅為了提取文本而執行完整的 LLM 成本高昂且速度緩慢，難以擴充套件。與之相比，LiteParse 提供了快速、本地、準確的文件解析，採用開源工具。它能夠精確提取文本的空間佈局資訊，為每個文本項生成邊界框，並報告其在頁面上的位置。這種空間保真度對於下游任務（如表格提取、章節檢測和引用定位）至關重要。

liteparse-server 將 LiteParse 封裝為 HTTP API，使其可以作為專用的自託管解析後端，供任何語言或服務使用。它支援多種文件格式：PDF（原生文本提取及選擇性 OCR）、Office 文件（Word、PowerPoint、Excel 等，透過 LibreOffice）以及影像（JPG、PNG、TIFF 等，透過 ImageMagick）。OCR 預設使用 Tesseract.js，並可外掛式支援 EasyOCR、PaddleOCR 或自定義 OCR 伺服器。

該伺服器提供兩個主要端點：POST /parse 用於解析單個文件，返回帶文本和邊界框的結構化頁面資料或純文本；POST /screenshots 用於將文件頁面渲染為 PNG 影像，以 Base64 編碼返回，適合視覺模型和引用場景。端點接受配置欄位以進行精細控制。

部署模式有兩種：最小化伺服器，無需基礎設施依賴，可在本地使用 Bun/Node 或 Docker 執行；完整堆疊透過 Docker Compose 部署，包含 Redis 快取、Redis 限流、OpenTelemetry 分散式追蹤（Jaeger）以及 Prometheus 和 Grafana 監控。快取使用檔案內容的 SHA-256 雜湊，避免重複解析。

該專案開源，託管在 GitHub，並提供預構建 Docker 映象。使用者 pull 映象後即可執行伺服器，預設監聽 5000 埠。詳細的文件（包括 OCR 配置、多格式支援、邊界框輸出及 TypeScript 和 Python 庫 API）可在 developers.llamaindex.ai/liteparse 找到。