2026-05-15 11:32 UTC+9サイト内リライト2 分で読了更新: 2026-06-27 09:25 UTC+9

liteparse-server の紹介：AI ワークフローのためのセルフホスト型ドキュメント解析とOCR

liteparse-server は、LiteParse ドキュメント解析エンジンをラップしたセルフホスト型 HTTP API で、PDF、Office 文書、画像をサポートし、正確な空間レイアウトテキスト抽出と OCR を提供します。クラウド解析のレイテンシ、コスト、プライバシーの問題に対処し、RAG やビジョンモデルのワークフローに適しています。2つのデプロイモード：スリムサーバー（依存関係なし）とフルスタック（Redis キャッシュ、レート制限、OpenTelemetry トレーシング、Prometheus メトリクス）。

ソースLlamaIndex Blog

記事インテリジェンス

エンジニア上級

要点

セルフホスト型ドキュメント解析API、PDF、Word、Excel、PowerPoint、画像をサポート。
境界ボックス付きの構造化テキスト抽出とビジョンモデル向けページスクリーンショットエンドポイント。
2つのデプロイモード：スリムサーバー（Docker またはローカル）とフルスタック（Redis、OpenTelemetry、Prometheus）。
オープンソース、GitHub で入手可能、ビルド済み Docker イメージ付き。

重要な理由

このニュースが重要なのは、セルフホスト型ドキュメント解析API、PDF、Word、Excel、PowerPoint、画像をサポートためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

AI やデータワークフローにおいて、ドキュメントの処理はしばしばボトルネックになります。データは PDF、Word 文書、スプレッドシート、スキャン画像などに含まれており、そこからきれいなテキストを抽出するのは想像以上に困難です。単純な抽出ライブラリ（pypdf など）は空間レイアウトを失い、一方でクラウド API は正確ですが、レイテンシ、ページごとのコスト、プライバシーの問題、ネットワーク依存性をもたらします。また、テキスト抽出だけのためにフル LLM を実行するのは高コストで遅く、スケールさせるには適しません。これに対し、LiteParse はオープンソースツールを用いて高速でローカル、正確なドキュメント解析を提供します。テキストを正確な空間レイアウト情報とともに抽出し、各テキストアイテムにバウンディングボックスを生成し、ページ上の位置を報告します。この空間忠実性は、テーブル抽出、セクション検出、引用の根拠付けといったダウンストリームタスクにとって重要です。

liteparse-server は LiteParse を HTTP API としてラップし、専用のセルフホスト型解析バックエンドとしてあらゆる言語やサービスから利用できるようにします。対応するドキュメント形式は多岐にわたります：PDF（ネイティブテキスト抽出と選択的 OCR）、Office 文書（Word、PowerPoint、Excel など、LibreOffice 経由）、画像（JPG、PNG、TIFF など、ImageMagick 経由）。OCR はデフォルトでバンドルされた Tesseract.js を使用し、EasyOCR、PaddleOCR、またはカスタム OCR サーバーへのプラグインもサポートします。

サーバーは 2 つの主要エンドポイントを提供します：POST /parse は単一ドキュメントを解析し、テキストとバウンディングボックスを含む構造化ページデータ、またはプレーンテキストを返します。POST /screenshots はドキュメントページを PNG 画像にレンダリングし、Base64 エンコードで返すため、ビジョンモデルや引用に適しています。両エンドポイントは設定フィールドを受け付け、微調整が可能です。

デプロイモードは 2 つあります。スリムサーバーはインフラ依存関係がなく、Bun/Node または Docker コンテナとしてローカルで実行できます。フルスタックは Docker Compose でデプロイし、Redis キャッシュ（SHA-256 ハッシュによる重複解析防止）、Redis レート制限、OpenTelemetry 分散トレーシング（Jaeger）、Prometheus メトリクスと Grafana ダッシュボードを備えています。キャッシュの TTL はファイルタイプに応じて 1 時間から 24 時間です。

このプロジェクトはオープンソースで、GitHub（github.com/run-llama/liteparse-server）から入手できます。ビルド済み Docker イメージも提供されており、pull して即座に実行できます。サーバー起動後は localhost:5000 で利用可能です。詳細なドキュメント（OCR 設定、マルチフォーマット対応、バウンディングボックス出力、TypeScript および Python ライブラリ API）は developers.llamaindex.ai/liteparse にあります。