AI News HubLIVE
サイト内リライト2 分で読了

liteparse-server の紹介:AI ワークフローのためのセルフホスト型ドキュメント解析とOCR

liteparse-server は、LiteParse ドキュメント解析エンジンをラップしたセルフホスト型 HTTP API で、PDF、Office 文書、画像をサポートし、正確な空間レイアウトテキスト抽出と OCR を提供します。クラウド解析のレイテンシ、コスト、プライバシーの問題に対処し、RAG やビジョンモデルのワークフローに適しています。2つのデプロイモード:スリムサーバー(依存関係なし)とフルスタック(Redis キャッシュ、レート制限、OpenTelemetry トレーシング、Prometheus メトリクス)。

AI やデータワークフローにおいて、ドキュメントの処理はしばしばボトルネックになります。データは PDF、Word 文書、スプレッドシート、スキャン画像などに含まれており、そこからきれいなテキストを抽出するのは想像以上に困難です。単純な抽出ライブラリ(pypdf など)は空間レイアウトを失い、一方でクラウド API は正確ですが、レイテンシ、ページごとのコスト、プライバシーの問題、ネットワーク依存性をもたらします。また、テキスト抽出だけのためにフル LLM を実行するのは高コストで遅く、スケールさせるには適しません。これに対し、LiteParse はオープンソースツールを用いて高速でローカル、正確なドキュメント解析を提供します。テキストを正確な空間レイアウト情報とともに抽出し、各テキストアイテムにバウンディングボックスを生成し、ページ上の位置を報告します。この空間忠実性は、テーブル抽出、セクション検出、引用の根拠付けといったダウンストリームタスクにとって重要です。

liteparse-server は LiteParse を HTTP API としてラップし、専用のセルフホスト型解析バックエンドとしてあらゆる言語やサービスから利用できるようにします。対応するドキュメント形式は多岐にわたります:PDF(ネイティブテキスト抽出と選択的 OCR)、Office 文書(Word、PowerPoint、Excel など、LibreOffice 経由)、画像(JPG、PNG、TIFF など、ImageMagick 経由)。OCR はデフォルトでバンドルされた Tesseract.js を使用し、EasyOCR、PaddleOCR、またはカスタム OCR サーバーへのプラグインもサポートします。

サーバーは 2 つの主要エンドポイントを提供します:POST /parse は単一ドキュメントを解析し、テキストとバウンディングボックスを含む構造化ページデータ、またはプレーンテキストを返します。POST /screenshots はドキュメントページを PNG 画像にレンダリングし、Base64 エンコードで返すため、ビジョンモデルや引用に適しています。両エンドポイントは設定フィールドを受け付け、微調整が可能です。

デプロイモードは 2 つあります。スリムサーバーはインフラ依存関係がなく、Bun/Node または Docker コンテナとしてローカルで実行できます。フルスタックは Docker Compose でデプロイし、Redis キャッシュ(SHA-256 ハッシュによる重複解析防止)、Redis レート制限、OpenTelemetry 分散トレーシング(Jaeger)、Prometheus メトリクスと Grafana ダッシュボードを備えています。キャッシュの TTL はファイルタイプに応じて 1 時間から 24 時間です。

このプロジェクトはオープンソースで、GitHub(github.com/run-llama/liteparse-server)から入手できます。ビルド済み Docker イメージも提供されており、pull して即座に実行できます。サーバー起動後は localhost:5000 で利用可能です。詳細なドキュメント(OCR 設定、マルチフォーマット対応、バウンディングボックス出力、TypeScript および Python ライブラリ API)は developers.llamaindex.ai/liteparse にあります。