AI News HubLIVE
站内改写1 分で読了

MM-BizRAG: 汎用エンタープライズQAのためのマルチモーダル検索拡張生成の再考

MM-BizRAGは、エンタープライズQA向けの新しいマルチモーダル検索拡張生成手法です。文書構造認識分割と方向別取り込みパイプラインにより文書構造を明示的に抽出し、ファインチューニングなしでリッチな回答を生成します。エンタープライズデータセットと公開ベンチマークで最先端ベースラインを最大32%上回りました。また、コスト効率の良いLLM評価指標FastRAGEvalも提案されています。ACL 2026 Industry Trackに採択。

ソースarXiv Computational Linguistics著者: Hanoz Bhathena, Parin Rajesh Jhaveri, Rohan Mittal, Prateek Singh, Aymen Kallala, Rachneet Kaur, Yiqiao Jin, Zhen Zeng, Adwait Ratnaparkhi, Denis Kochedykov

ACL 2026 Industry Trackに採択された論文「MM-BizRAG: Rethinking Multimodal Retrieval-Augmented Generation for General Purpose Enterprise Q&A」が、エンタープライズ向け質問応答システムに新たな可能性を示しました。著者らは、既存のマルチモーダル検索拡張生成(MM-RAG)手法が複雑なエンタープライズ文書の構造化情報を十分に活用できていない問題に着目。現在主流の最小限の解析に依存するアプローチに代わり、文書構造を積極的に抽出・表現する手法を提案しています。

MM-BizRAGは、文書構造認識分割を用いて、文書を向きに応じた取り込みパイプラインに動的に振り分けます。縦型構造の文書(レポートなど)にはレイアウト認識解析を、横型構造の文書(スライドデッキなど)にはページ全体の表現を適用。統一されたLLM駆動のアーティファクト変換パイプラインにより、プレースホルダーベースの位置合わせで自然な読み順を保持します。さらに、推論時のマルチモーダルアセンブリにより検索表現と生成コンテキストを分離し、ファインチューニングを一切必要とせずに、よりリッチで根拠のある回答を生成可能にしました。

実験では、大規模で多様なエンタープライズデータセットと二つの公開ベンチマーク(SlideVQA、FinRAGBench-V)において、MM-BizRAGは最先端のビジョン中心ベースラインを最大32%上回る性能を示し、特にレポート形式のレイアウトで顕著な改善が見られました。また、細粒度の生成的再現性を評価するための新しいLLM評価指標FastRAGEvalも導入され、RAGCheckerと比較してコストを半減しつつ、人間との一致度が向上しています。

本研究は、エンタープライズQAの実用化に向けて、文書構造の明示的モデリングの重要性を強調するものです。今後の展開として、スマート文書処理や知識管理分野での応用が期待されます。