AI News HubLIVE
站内改写1 分鐘閱讀

MM-BizRAG:重新思考面向通用企業問答的多模態檢索增強生成

MM-BizRAG 是一種新的多模態檢索增強生成方法,專為企業級問答設計。它透過文件結構感知的分割和方向特定處理管道,顯式提取和表示複雜企業文件的結構,無需微調即可生成更豐富、更準確的答案。在大型企業資料集和兩個公開基準上,MM-BizRAG 的效能比最先進的視覺基線高出高達 32%,尤其是在報告式佈局上。此外,還提出了 FastRAGEval,一種成本更低且與人類對齊更強的 LLM 評估指標。該論文已被 ACL 2026 行業軌道接收。

來源arXiv Computational Linguistics作者: Hanoz Bhathena, Parin Rajesh Jhaveri, Rohan Mittal, Prateek Singh, Aymen Kallala, Rachneet Kaur, Yiqiao Jin, Zhen Zeng, Adwait Ratnaparkhi, Denis Kochedykov

近日,一項名為 MM-BizRAG 的研究成果被 ACL 2026 行業軌道接收,為多模態檢索增強生成(MM-RAG)在企業級問答中的應用帶來了全新思路。該研究由 Hanoz Bhathena 等人完成,旨在解決現有 MM-RAG 方法在處理複雜企業文件時對結構化資訊利用不足的問題。

當前 MM-RAG 領域的主流趨勢是採用最小化解析策略,僅依賴頁面級影像生成檢索嵌入和答案。雖然這種方法效率較高,但卻忽略了企業文件中豐富的結構化資訊,如報告中的表、圖表和幻燈片中的佈局。MM-BizRAG 則採取了更直接的方式:它透過文件結構感知的分割,動態地將文件路由到面向特定方向的 ingestion 管道。對於垂直結構文件(如報告),採用顯式的佈局感知解析;對於水平結構文件(如幻燈片),則使用整體的頁面級表示。這種設計使得文件的結構資訊得到充分提取和利用。

在文件處理方面,MM-BizRAG 引入了一個統一的 LLM 驅動工件轉換管道,透過基於佔位符的位置對齊來保持自然的閱讀順序。推理時,多模態組裝機制將檢索表示與生成上下文解耦,使得模型能夠生成更豐富、更基於事實的答案,且完全無需微調。這大大降低了部署成本,使其更適用於動態的企業環境。

實驗結果表明,MM-BizRAG 在大型、異構的企業資料集以及兩個公開基準(SlideVQA 和 FinRAGBench-V)上,始終優於最先進的視覺基線,效能提升高達 32 個百分點,尤其在報告式佈局上表現突出。此外,該研究還提出了 FastRAGEval,一種單次呼叫的 LLM 評估指標,用於細粒度的生成性召回評估。相比現有指標 RAGChecker,FastRAGEval 的成本減半,同時與人類判斷的一致性更強。

MM-BizRAG 的提出不僅為企業級問答提供了一種高效、準確的解決方案,也為未來多模態 RAG 研究指明瞭方向——即重視文件結構資訊的顯式建模,而非完全依賴隱式學習。隨著企業數字化轉型的深入,這類技術有望在智慧文件處理、知識管理等領域發揮重要作用。