オフィス理解ベンチマーク
Office Comprehension Bench (OCB) は、Word、Excel、PowerPointのネイティブファイル形式におけるLLMの理解力を共同評価する初の公開ベンチマークです。ファイル忠実度QA(構造的・視覚的認識)とドメインQA(12プロフェッショナル領域における専門家レベルの推論)の2つのトラックで構成されます。最強のフロンティアシステムでもデフォルト推論モードで約59.3%の精度にとどまり、同一ティア内で思考深度を増しても性能は向上せず、上位製品ティアへの移行でわずかな改善が見られます。データセット、評価ツール、判定プロンプト、リーダーボードが公開されています。
新たに「Office Comprehension Bench(OCB)」と呼ばれるベンチマークが発表されました。これは、大規模言語モデル(LLM)がWord、Excel、PowerPointのネイティブファイル形式(.docx、.xlsx、.pptx)をどの程度理解できるかを評価する初の公開ベンチマークです。OCBは、2026年5月29日にarXivに投稿された論文で紹介され、Firoz Shaik氏を含む20人の研究者によって開発されました。
OCBは2つのトラックで構成されています。ファイル忠実度QA(File Fidelity Q&A)では、表、グラフ、埋め込み画像、数式、ヘッダー、スピーカーノート、名前付き範囲など、オフィス文書の構造的・視覚的要素の認識能力をテストします。ドメインQA(Domain Q&A)では、12の専門領域にわたる実世界の業界文書を基に、複数文書にまたがる多段階の分析と統合を必要とする質問を通じて、専門家レベルの推論能力を評価します。各参照回答は原子的な二値判定可能なクレームに分解され、複数のLLM評価者が独立して各クレームを採点します。
評価の結果、最強のフロンティアシステムでもデフォルトの推論モードではドメインQAで約59.3%の正答率にとどまりました。同一製品ティア内で思考深度を増しても性能は実質的に向上せず、上位の製品ティアに移行することでわずかな改善が見られました。これは、現在のLLMが複雑なオフィス文書の推論において依然として大きな限界を抱えていることを示しています。
研究チームは、OCBのデータセット、評価ツール、判定プロンプト、および公開リーダーボードをリリースしました。これらのリソースにより、開発者は自社モデルの実用的なオフィス文書理解能力を測定・改善し、AIの生産性向上への応用を促進することが期待されます。