2026-05-15 11:31 UTC+9サイト内リライト5 分で読了更新: 2026-06-27 09:25 UTC+9

ParseBench: AIエージェント向け初のドキュメント解析ベンチマーク

ParseBenchは、AIエージェントが実際のエンタープライズ文書を解析する品質を測定する新しいベンチマークであり、表、グラフ、コンテンツの忠実性、意味的書式設定、視覚的グラウンディングの5つの次元をカバーします。約2,000ページのエンタープライズ文書と167,000以上のテストルールを用いた14の手法の評価では、単一の手法がすべてに優れるわけではないが、LlamaParse Agenticが84.9%の総合スコアで、5つの主要次元すべてで競争力のある唯一の手法であることが示されました。

ソースLlamaIndex Blog

記事インテリジェンス

エンジニア上級

要点

ParseBenchは約2,000ページのエンタープライズ文書と167,000以上のテストルールを5つの能力次元で含みます。
グラフは最大の課題であり、50%を超えるプロバイダーはわずか4社です。
コンテンツの忠実性はほぼ解決され、最高の手法で約90%ですが、ハイステークスなワークフローにはまだ十分ではありません。
LlamaParse Agenticは1ページあたり約1.2セントで84.9%の総合スコアを達成し、品質とコストの最良のトレードオフを提供します。

重要な理由

このニュースが重要なのは、ParseBenchは約2,000ページのエンタープライズ文書と167,000以上のテストルールを5つの能力次元で含みますためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

文書解析（OCR）は、現実世界のファイルを扱うすべてのAIエージェントの基盤です。エージェントが請求を承認したり、財務レポートを分析したり、契約から条項を抽出したりする前に、文書を正しく読み取る必要があります。おおよそではなく、「十分近い」でもなく、正確にです。しかし、これまでは、エージェントが実際に必要とする方法で解析品質を測定するベンチマークは存在しませんでした。エンタープライズ文書の全範囲にわたって、実際のダウンストリーム障害を引き起こす次元で評価するものです。

本日、ParseBenchを公開します。これは、約2,000ページの人間検証済みエンタープライズ文書と167,000以上のテストルールを含むベンチマークで、表、グラフ、コンテンツの忠実性、意味的書式設定、視覚的グラウンディングの5つの能力次元に整理されています。視覚言語モデル、専用文書パーサー、LlamaParseにわたる14の手法を評価しました。単一の手法がすべてに優れているわけではありませんが、LlamaParse Agenticは5つの主要次元すべてで競争力のある唯一の手法であり、総合スコア84.9%を達成しました。

ベンチマークデータセット、評価コード、および研究の完全な論文はすべて公開されています：データセットはHuggingFace、コードと評価はGitHub、論文はarXivで入手できます。

既存のベンチマークが見逃しているもの

人間が文書を読むとき、エラーを回避できます。少しずれた表、欠落した脚注参照、レンダリングされないグラフ。エージェントは（まだ）それができません。保険請求を承認するエージェントは、補償テーブルの特定のセルを読み取ります。表のヘッダーがずれていると、間違った列を読み取ります。小数点が欠落していると、計算が数倍ずれます。OCRと文書解析の基準は、「人間が読むのに十分」から「エージェントが行動するのに信頼できる」にシフトしました。これを意味的正確性と呼びます。解析出力が正しいダウンストリーム判断のために十分な構造と意味を保持しているかどうかです。

既存のベンチマークは、主に2つの方法でこれをうまく測定していません：

間違った文書。ほとんどのベンチマークは学術論文、ウェブコンテンツ、または狭いコーパスから抽出されます。真の自動化を推進するエンタープライズ文書（財務申告書、契約書、規制提出文書）は過小評価されています。最も多様なベンチマークであるOmniDocBenchでさえ、ページの6%しかエンタープライズコンテンツから取られていません。

間違った指標。テキスト類似度指標（BLEU、ROUGE、編集距離）は、空白やHTMLとMarkdownの出力の違いなどの表面的な差異をペナルティする一方で、転置された表ヘッダー、生のOCRテキストに縮小されたグラフ、または静かに削除された取り消し線などの重大なエラーを見逃します。

ParseBenchが評価するもの

ParseBenchは、エンドユーザーにとって最も重要な5つの能力次元をテストします：

1. 表

表はエンタープライズ文書の至る所にあり、これらの実世界の表は学術ベンチマークで見られる単純なグリッドではありません。結合セル、階層ヘッダー、複数ページにわたるスパン、1ページあたり複数の表は、最高の文書処理パイプラインでさえもつまずかせます。

我々はTableRecordMatchと呼ばれる新しい指標を導入します。これは、ダウンストリームシステムが実際に消費する方法で表を扱います：各行が列ヘッダーによってキー付けされた値のセットであるレコードの集合として。これは、列の並べ替えのような無害な違いをペナルティしませんが、転置されたヘッダーや欠落した列名などの重大なエラーを厳しくペナルティします。

2. グラフ

テストしたほとんどのパーサーはグラフを完全にスキップするか、生のOCRテキストを出力します。どちらもエージェントに使用可能なデータを提供しません。代わりに必要なのは、正しい系列名と軸ラベルを持つ実際の値であり、ダウンストリームワークフローで処理できるようにすることです。

グラフごとに最大10のスポットチェックデータポイントを注釈し、それぞれに数値、関連ラベル、許容誤差を付けます。明示的な値ラベルを持つグラフは完全に一致する必要があります。軸から値を読み取る必要があるグラフは、ピクセル完全な読み取りが非現実的であるため、1%の許容誤差を得ます。

3. コンテンツの忠実性

最も基本的な要件：パーサーはすべてのテキストを正しい順序で実際にキャプチャし、作り話をしていませんか？3つの障害モードをテストします：

欠落：単語、文、数字レベルでのテキストの欠落
幻覚：ソースに存在しないコンテンツの生成
読み取り順序違反：マルチカラムレイアウトの不正確な線形化

これは、あいまいなテキスト類似度ではなく、密集したルールベースのテスト（データセット全体で167,000以上のルール）を通じて評価されます。OCRがデータを欠落している場合、どのタイプの文書がそれを引き起こすかを理解する必要があります。

4. 意味的書式設定

ほとんどのパーサーは書式設定を装飾として扱い、削除します。しかし、一部の書式設定には意味があります：

取り消し線の価格は現在の価格ではない
上付き文字「1」は脚注参照であり、数字の1ではない
財務報告書の太字テキストは、主要な集計値をマークすることが多い
タイトル階層は文書構造を決定する

エージェントが$49.99 $39.99と「$49.99 $39.99」を区別できない場合、古い価格を引用する可能性があります。

5. 視覚的グラウンディング

パーサーは抽出された各要素をページ上の元の位置にトレースできますか？これは規制産業における監査可能性にとって重要です。エージェントが保険フォームから補償限度額を抽出した場合、その数字がページ上のどこから来たかを正確に指し示せる必要があります。

これを共同問題として評価します：パーサーは正しい領域を見つけ（位置特定）、正しいラベルを割り当て（分類）、正しいコンテンツをアタッチする（帰属）必要があります。

データセットの構築方法

すべての約2,000ページは、保険（SERFF提出書類）、金融（公開財務報告書）、政府文書、およびその他のドメインにわたる実際の公開エンタープライズ文書から来ています。単純なケースから敵対的に難しいケースまで意図的にサンプリングしています。

グラウンドトゥルースは2パスパイプラインを通じて生成されます：

自動ラベリング：フロンティアVLMが初期注釈を生成
人間による検証：注釈者が各ページをレビューして修正し、レビューワークフローは各次元のグラウンドトゥルース形式に合わせて調整されます

ParseBenchの結果

14の手法を3つのカテゴリーでテストしました：汎用VLM（GPT-5 Mini、Haiku 4.5、Gemini 3 Flash、Qwen 3 VL、Dots OCR 1.5）、専用文書パーサー（Textract、Azure Document Intelligence、Google Cloud Document AI、Reducto、Docling、Extend、LandingAI）、およびLlamaParse（Cost EffectiveおよびAgenticモード）。

主な結果は次のとおりです：

グラフは大きな分かれ道。50%を超えるプロバイダーはわずか4社。ほとんどの専用パーサーは6%未満のスコアで、グラフデータを構造化テーブルに抽出しないためです。
コンテンツの忠実性はほぼ解決（しかし完全ではない）。最高の手法は約90%に達しますが、これはエージェントが10ページに1ページで意味のある欠落や幻覚に遭遇することを意味します。ハイステークスなワークフローにはまだ十分ではありません。ParseBenchは、どのタイプの文書が特別な注意を必要とするかを理解するのに役立ちます。
書式設定は広く無視されている。ほとんどのパーサーは取り消し線、上付き文字、太字を装飾として扱い削除します。スコアは1.0%（Docling）から85.2%（LlamaParse Agentic）の範囲です。
視覚的グラウンディングがVLMと専用パーサーを分ける。GPT-5 MiniとHaikuのグラウンディングスコアは8%未満。正確な要素レベルの位置特定には、単一のLLMパスが提供する以上の空間推論が必要です。一方、レイアウト検出を中心に構築された従来の文書パーサーは55～80%のスコアです。

品質とコスト

品質とコストのトレードオフも分析しました。2つのパターンが際立ちます：

VLMにより多くの計算リソースを投入しても、収穫逓減が生じます。Geminiは最小思考から高思考に移行すると、コストが4倍になる一方でスコアは約5ポイントしか向上しません。GPT-5 MiniとHaikuはコストが3～4倍になってもさらに小さな改善しか見られません。
LlamaParseはOCRの最前線に位置しています。Agenticモード（約1.2セント/ページ、84.9%総合スコア）は、任意のコストレベルで他のすべてのプロバイダーを上回ります。Cost Effectiveモード（約0.3セント/ページ、78.1%）は、他のプロバイダーよりも低コストでそれらを上回る性能を発揮します。

自分で試す

ベンチマークを実行するには：

git clone https://github.com/run-llama/parse-bench.git
cd ParseBench

# インストール
uv sync --extra runners

# サポートされている任意のパイプラインでベンチマークを実行
uv run parse-bench run

# インタラクティブレポートを表示
uv run parse-bench serve

ベンチマークには90以上のプリコンフィギュレーションパイプラインとすべての評価コードが含まれています。独自のOCRモデルを追加するのは簡単です（そして推奨されます！）。近々公式リーダーボードも発表される予定です。

データセット：HuggingFace コードと評価：GitHub 論文：arXiv