liteparse-server 介紹:用於 AI 工作流的自託管文件解析與 OCR
liteparse-server 是一個自託管的 HTTP API,封裝了 LiteParse 文件解析引擎,支援 PDF、Office 文件和影像,提供精確的空間佈局文本提取和 OCR 功能。它解決了雲端解析的延遲、成本和隱私問題,適用於 RAG、視覺模型等工作流。支援兩種部署模式:輕量級伺服器(無依賴)和完整堆疊(帶 Redis 快取、限流、OpenTelemetry 追蹤、Prometheus 指標)。
在 AI 和資料工作流中,處理文件常常會遇到瓶頸。資料通常以 PDF、Word 文件、電子表格或掃描影像的形式存在,而從中提取乾淨的文本比想象中更困難。簡單的提取庫(如 pypdf)會丟失空間佈局,而云端解析 API 雖然準確,但會引入延遲、按頁收費、隱私問題和網路依賴。同時,僅為了提取文本而執行完整的 LLM 成本高昂且速度緩慢,難以擴充套件。與之相比,LiteParse 提供了快速、本地、準確的文件解析,採用開源工具。它能夠精確提取文本的空間佈局資訊,為每個文本項生成邊界框,並報告其在頁面上的位置。這種空間保真度對於下游任務(如表格提取、章節檢測和引用定位)至關重要。
liteparse-server 將 LiteParse 封裝為 HTTP API,使其可以作為專用的自託管解析後端,供任何語言或服務使用。它支援多種文件格式:PDF(原生文本提取及選擇性 OCR)、Office 文件(Word、PowerPoint、Excel 等,透過 LibreOffice)以及影像(JPG、PNG、TIFF 等,透過 ImageMagick)。OCR 預設使用 Tesseract.js,並可外掛式支援 EasyOCR、PaddleOCR 或自定義 OCR 伺服器。
該伺服器提供兩個主要端點:POST /parse 用於解析單個文件,返回帶文本和邊界框的結構化頁面資料或純文本;POST /screenshots 用於將文件頁面渲染為 PNG 影像,以 Base64 編碼返回,適合視覺模型和引用場景。端點接受配置欄位以進行精細控制。
部署模式有兩種:最小化伺服器,無需基礎設施依賴,可在本地使用 Bun/Node 或 Docker 執行;完整堆疊透過 Docker Compose 部署,包含 Redis 快取、Redis 限流、OpenTelemetry 分散式追蹤(Jaeger)以及 Prometheus 和 Grafana 監控。快取使用檔案內容的 SHA-256 雜湊,避免重複解析。
該專案開源,託管在 GitHub,並提供預構建 Docker 映象。使用者 pull 映象後即可執行伺服器,預設監聽 5000 埠。詳細的文件(包括 OCR 配置、多格式支援、邊界框輸出及 TypeScript 和 Python 庫 API)可在 developers.llamaindex.ai/liteparse 找到。