MM-BizRAG:重新思考面向通用企业问答的多模态检索增强生成
MM-BizRAG 是一种新的多模态检索增强生成方法,专为企业级问答设计。它通过文档结构感知的分割和方向特定处理管道,显式提取和表示复杂企业文档的结构,无需微调即可生成更丰富、更准确的答案。在大型企业数据集和两个公开基准上,MM-BizRAG 的性能比最先进的视觉基线高出高达 32%,尤其是在报告式布局上。此外,还提出了 FastRAGEval,一种成本更低且与人类对齐更强的 LLM 评估指标。该论文已被 ACL 2026 行业轨道接收。
近日,一项名为 MM-BizRAG 的研究成果被 ACL 2026 行业轨道接收,为多模态检索增强生成(MM-RAG)在企业级问答中的应用带来了全新思路。该研究由 Hanoz Bhathena 等人完成,旨在解决现有 MM-RAG 方法在处理复杂企业文档时对结构化信息利用不足的问题。
当前 MM-RAG 领域的主流趋势是采用最小化解析策略,仅依赖页面级图像生成检索嵌入和答案。虽然这种方法效率较高,但却忽略了企业文档中丰富的结构化信息,如报告中的表、图表和幻灯片中的布局。MM-BizRAG 则采取了更直接的方式:它通过文档结构感知的分割,动态地将文档路由到面向特定方向的 ingestion 管道。对于垂直结构文档(如报告),采用显式的布局感知解析;对于水平结构文档(如幻灯片),则使用整体的页面级表示。这种设计使得文档的结构信息得到充分提取和利用。
在文档处理方面,MM-BizRAG 引入了一个统一的 LLM 驱动工件转换管道,通过基于占位符的位置对齐来保持自然的阅读顺序。推理时,多模态组装机制将检索表示与生成上下文解耦,使得模型能够生成更丰富、更基于事实的答案,且完全无需微调。这大大降低了部署成本,使其更适用于动态的企业环境。
实验结果表明,MM-BizRAG 在大型、异构的企业数据集以及两个公开基准(SlideVQA 和 FinRAGBench-V)上,始终优于最先进的视觉基线,性能提升高达 32 个百分点,尤其在报告式布局上表现突出。此外,该研究还提出了 FastRAGEval,一种单次调用的 LLM 评估指标,用于细粒度的生成性召回评估。相比现有指标 RAGChecker,FastRAGEval 的成本减半,同时与人类判断的一致性更强。
MM-BizRAG 的提出不仅为企业级问答提供了一种高效、准确的解决方案,也为未来多模态 RAG 研究指明了方向——即重视文档结构信息的显式建模,而非完全依赖隐式学习。随着企业数字化转型的深入,这类技术有望在智能文档处理、知识管理等领域发挥重要作用。