2026-06-04 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

MM-BizRAG：重新思考面向通用企业问答的多模态检索增强生成

MM-BizRAG 是一种新的多模态检索增强生成方法，专为企业级问答设计。它通过文档结构感知的分割和方向特定处理管道，显式提取和表示复杂企业文档的结构，无需微调即可生成更丰富、更准确的答案。在大型企业数据集和两个公开基准上，MM-BizRAG 的性能比最先进的视觉基线高出高达 32%，尤其是在报告式布局上。此外，还提出了 FastRAGEval，一种成本更低且与人类对齐更强的 LLM 评估指标。该论文已被 ACL 2026 行业轨道接收。

来源arXiv Computational Linguistics作者: Hanoz Bhathena, Parin Rajesh Jhaveri, Rohan Mittal, Prateek Singh, Aymen Kallala, Rachneet Kaur, Yiqiao Jin, Zhen Zeng, Adwait Ratnaparkhi, Denis Kochedykov

近日，一项名为 MM-BizRAG 的研究成果被 ACL 2026 行业轨道接收，为多模态检索增强生成（MM-RAG）在企业级问答中的应用带来了全新思路。该研究由 Hanoz Bhathena 等人完成，旨在解决现有 MM-RAG 方法在处理复杂企业文档时对结构化信息利用不足的问题。

当前 MM-RAG 领域的主流趋势是采用最小化解析策略，仅依赖页面级图像生成检索嵌入和答案。虽然这种方法效率较高，但却忽略了企业文档中丰富的结构化信息，如报告中的表、图表和幻灯片中的布局。MM-BizRAG 则采取了更直接的方式：它通过文档结构感知的分割，动态地将文档路由到面向特定方向的 ingestion 管道。对于垂直结构文档（如报告），采用显式的布局感知解析；对于水平结构文档（如幻灯片），则使用整体的页面级表示。这种设计使得文档的结构信息得到充分提取和利用。

在文档处理方面，MM-BizRAG 引入了一个统一的 LLM 驱动工件转换管道，通过基于占位符的位置对齐来保持自然的阅读顺序。推理时，多模态组装机制将检索表示与生成上下文解耦，使得模型能够生成更丰富、更基于事实的答案，且完全无需微调。这大大降低了部署成本，使其更适用于动态的企业环境。

实验结果表明，MM-BizRAG 在大型、异构的企业数据集以及两个公开基准（SlideVQA 和 FinRAGBench-V）上，始终优于最先进的视觉基线，性能提升高达 32 个百分点，尤其在报告式布局上表现突出。此外，该研究还提出了 FastRAGEval，一种单次调用的 LLM 评估指标，用于细粒度的生成性召回评估。相比现有指标 RAGChecker，FastRAGEval 的成本减半，同时与人类判断的一致性更强。

MM-BizRAG 的提出不仅为企业级问答提供了一种高效、准确的解决方案，也为未来多模态 RAG 研究指明了方向——即重视文档结构信息的显式建模，而非完全依赖隐式学习。随着企业数字化转型的深入，这类技术有望在智能文档处理、知识管理等领域发挥重要作用。