2026-06-04 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

MM-BizRAG：重新思考面向通用企業問答的多模態檢索增強生成

MM-BizRAG 是一種新的多模態檢索增強生成方法，專為企業級問答設計。它透過文件結構感知的分割和方向特定處理管道，顯式提取和表示複雜企業文件的結構，無需微調即可生成更豐富、更準確的答案。在大型企業資料集和兩個公開基準上，MM-BizRAG 的效能比最先進的視覺基線高出高達 32%，尤其是在報告式佈局上。此外，還提出了 FastRAGEval，一種成本更低且與人類對齊更強的 LLM 評估指標。該論文已被 ACL 2026 行業軌道接收。

來源arXiv Computational Linguistics作者: Hanoz Bhathena, Parin Rajesh Jhaveri, Rohan Mittal, Prateek Singh, Aymen Kallala, Rachneet Kaur, Yiqiao Jin, Zhen Zeng, Adwait Ratnaparkhi, Denis Kochedykov

近日，一項名為 MM-BizRAG 的研究成果被 ACL 2026 行業軌道接收，為多模態檢索增強生成（MM-RAG）在企業級問答中的應用帶來了全新思路。該研究由 Hanoz Bhathena 等人完成，旨在解決現有 MM-RAG 方法在處理複雜企業文件時對結構化資訊利用不足的問題。

當前 MM-RAG 領域的主流趨勢是採用最小化解析策略，僅依賴頁面級影像生成檢索嵌入和答案。雖然這種方法效率較高，但卻忽略了企業文件中豐富的結構化資訊，如報告中的表、圖表和幻燈片中的佈局。MM-BizRAG 則採取了更直接的方式：它透過文件結構感知的分割，動態地將文件路由到面向特定方向的 ingestion 管道。對於垂直結構文件（如報告），採用顯式的佈局感知解析；對於水平結構文件（如幻燈片），則使用整體的頁面級表示。這種設計使得文件的結構資訊得到充分提取和利用。

在文件處理方面，MM-BizRAG 引入了一個統一的 LLM 驅動工件轉換管道，透過基於佔位符的位置對齊來保持自然的閱讀順序。推理時，多模態組裝機制將檢索表示與生成上下文解耦，使得模型能夠生成更豐富、更基於事實的答案，且完全無需微調。這大大降低了部署成本，使其更適用於動態的企業環境。

實驗結果表明，MM-BizRAG 在大型、異構的企業資料集以及兩個公開基準（SlideVQA 和 FinRAGBench-V）上，始終優於最先進的視覺基線，效能提升高達 32 個百分點，尤其在報告式佈局上表現突出。此外，該研究還提出了 FastRAGEval，一種單次呼叫的 LLM 評估指標，用於細粒度的生成性召回評估。相比現有指標 RAGChecker，FastRAGEval 的成本減半，同時與人類判斷的一致性更強。

MM-BizRAG 的提出不僅為企業級問答提供了一種高效、準確的解決方案，也為未來多模態 RAG 研究指明瞭方向——即重視文件結構資訊的顯式建模，而非完全依賴隱式學習。隨著企業數字化轉型的深入，這類技術有望在智慧文件處理、知識管理等領域發揮重要作用。