AI News HubLIVE
サイト内リライト2 分で読了

最先端モデルは強力だが、文書解析はより難しい | Unstructured

UnstructuredはSCORE-Benchベンチマークを用いて、5つの最先端モデルのエンタープライズ文書解析能力を評価し、生のモデル呼び出しと最適化パイプラインの間に有意なギャップがあることを明らかにした。モデルは推論や幻覚制御(特にClaude Opus 4.6)で優れるものの、テーブル抽出、文書構造、出力一貫性で最大23ポイントの差をつけられた。このギャップは能力ではなく設定の問題であり、最適化されたプロンプト、後処理、出力構造の強制によって埋められるとしている。

Unstructuredは最新のブログ記事で、最先端の大規模言語モデル(LLM)の文書解析能力を評価したベンチマーク結果を発表した。同社のSCORE-Benchベンチマークは、224の実際のエンタープライズ文書(歪んだスキャン請求書、複雑なネストテーブルを含む財務レポート、医療フォーム、法的契約書、マルチカラムの技術文書など)で構成されている。テスト対象はClaude Opus 4.6、GPT-5.2、Claude Sonnet 4、GPT-5-mini、Gemini 2.5 Proで、各モデルにシンプルな抽出プロンプトを与え、追加設定なしで評価した。ベースラインは、Claude Opus 4.5を使用し、最適化されたプロンプト、後処理、出力構造強制を備えたUnstructuredのVLM Partitionerパイプラインである。

結果は明確なギャップを示した。全モデルの総合精度はベースラインより4〜16ポイント低かった。最も顕著な発見は幻覚率である。Opus 4.6の幻覚率は0.044で、ベースラインの0.043とほぼ同じであり、文書にない内容を生成する傾向が極めて低い。しかし、その再現率は0.737と全モデル中最低で、文書内容の約4分の1を出力に含めていない。一方、GPT-5.2とGPT-5-miniはより高い再現率を示すが、幻覚率もそれぞれ0.167、0.161と高い。Gemini 2.5 Proは最も多くの内容を抽出するが、幻覚率も0.257と最も高い。つまり、低幻覚と高再現の両立が課題である。

テーブル抽出では、全モデルがベースラインより最大23ポイント低い精度を示した。問題は単なるテキスト読み取りではなく、セルの行と列の所属を正しく理解することにある。例えば「420万」という数字を正しく読み取っても、誤った列に配置すれば意味が変わってしまう。文書構造の要素整列は最大のギャップであり、すべてのモデルでベースラインより16ポイント低かった。ヘッダー、段落、テーブル、図表の識別と順序付けが不正確だと、段落が誤ったセクションに帰属されたり、図表がキャプションから分離されたりする。これらの断片がRAGパイプラインに入ると、LLMは正しい単語を誤った順序で扱い、一見正しそうな誤答を生成する。

出力一貫性に関しては、Gemini 2.5 Proが224文書中12件(約5%)で一貫性のないフォーマットを返し、スコアリング前に後処理が必要だった。これはパイプラインの自動化を妨げる現実的な問題である。

Unstructuredは、このギャップは能力の問題ではなく、設定の問題だと指摘する。シンプルな抽出プロンプトでは、結合されたテーブルヘッダーの処理方法、文書要素の順序、取得する内容の量、出力フォーマットを指定できない。これらが実際の文書解析で破綻するポイントである。最適化されたプロンプト、後処理、出力構造強制の3層で、生のモデル呼び出しを本番対応のパイプラインに引き上げることができる。各層は特定の障害モードに対処する。例えば、要素整列の問題はプロンプト、Opus 4.6の再現率トレードオフもプロンプト、Geminiのフォーマット問題は出力構造に起因する。

結論として、最先端モデルは強力だが、文書解析という具体的なタスクでは汎用的な能力だけでは不十分であり、ドメイン固有の最適化が不可欠である。