AI News HubLIVE
站內改寫1 分鐘閱讀

liteparse-server 介紹:用於 AI 工作流的自託管文檔解析與 OCR

liteparse-server 是一個自託管的 HTTP API,封裝了 LiteParse 文檔解析引擎,支持 PDF、Office 文檔和圖像,提供精確的空間佈局文本提取和 OCR 功能。它解決了雲端解析的延遲、成本和隱私問題,適用於 RAG、視覺模型等工作流。支持兩種部署模式:輕量級服務器(無依賴)和完整堆棧(帶 Redis 緩存、限流、OpenTelemetry 追蹤、Prometheus 指標)。

在 AI 和數據工作流中,處理文檔常常會遇到瓶頸。數據通常以 PDF、Word 文檔、電子表格或掃描圖像的形式存在,而從中提取乾淨的文本比想象中更困難。簡單的提取庫(如 pypdf)會丟失空間佈局,而云端解析 API 雖然準確,但會引入延遲、按頁收費、隱私問題和網絡依賴。同時,僅為了提取文本而運行完整的 LLM 成本高昂且速度緩慢,難以擴展。與之相比,LiteParse 提供了快速、本地、準確的文檔解析,採用開源工具。它能夠精確提取文本的空間佈局信息,為每個文本項生成邊界框,並報告其在頁面上的位置。這種空間保真度對於下游任務(如表格提取、章節檢測和引用定位)至關重要。

liteparse-server 將 LiteParse 封裝為 HTTP API,使其可以作為專用的自託管解析後端,供任何語言或服務使用。它支持多種文檔格式:PDF(原生文本提取及選擇性 OCR)、Office 文檔(Word、PowerPoint、Excel 等,通過 LibreOffice)以及圖像(JPG、PNG、TIFF 等,通過 ImageMagick)。OCR 默認使用 Tesseract.js,並可插件式支持 EasyOCR、PaddleOCR 或自定義 OCR 服務器。

該服務器提供兩個主要端點:POST /parse 用於解析單個文檔,返回帶文本和邊界框的結構化頁面數據或純文本;POST /screenshots 用於將文檔頁面渲染為 PNG 圖像,以 Base64 編碼返回,適合視覺模型和引用場景。端點接受配置字段以進行精細控制。

部署模式有兩種:最小化服務器,無需基礎設施依賴,可在本地使用 Bun/Node 或 Docker 運行;完整堆棧通過 Docker Compose 部署,包含 Redis 緩存、Redis 限流、OpenTelemetry 分佈式追蹤(Jaeger)以及 Prometheus 和 Grafana 監控。緩存使用文件內容的 SHA-256 哈希,避免重複解析。

該項目開源,託管在 GitHub,並提供預構建 Docker 鏡像。用户 pull 鏡像後即可運行服務器,默認監聽 5000 端口。詳細的文檔(包括 OCR 配置、多格式支持、邊界框輸出及 TypeScript 和 Python 庫 API)可在 developers.llamaindex.ai/liteparse 找到。