2026-05-26 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

通过信息融合进行文档分类模式识别：多模态与多视角表示方法的系统综述

本文对139项研究进行系统综述，提出统一框架并进行元分析。结果显示多模态融合使准确率平均提升5.28个百分点，多视角融合带来准确率提升4.67%、F1分数提升3.08%，但仅少数研究使用了统计检验，存在可重复性问题。

来源arXiv Computational Linguistics作者: Marcin Micha{\l} Miro\'nczuk

信息融合技术被广泛应用于文档分类，通过整合多种数据源（多模态）或多种表示（多视角）来提升性能。然而，该领域一直缺乏统一的理论框架、对有效性的量化综合以及对实践者的明确指导。为了填补这些空白，Marcin Michał Mirończuk开展了一项系统综述，对139项原始研究进行了全面分析。该研究于2026年4月提交至arXiv，首次提出了一个正式的、结构化的框架来组织该领域，并通过定性分析识别了关键趋势和挑战。

更值得关注的是，研究团队执行了随机效应元分析——据我们所知，这是首个聚焦于文档分类的元分析——以量化性能提升。结果显示，多模态融合能显著提高准确率，平均增益达+5.28个百分点（p=0.0016）；F1分数虽呈正向趋势，但在主要模型中未达统计显著性。多视角融合则带来了一致但适度的提升：准确率提高4.67%，F1分数提高3.08%，召回率也显著提升（所有p<0.05）。这些发现为信息融合在文档分类中的有效性提供了首个定量证据基础。

然而，定性综合揭示了方法论严谨性方面的严峻挑战：仅11.8%的多模态研究和23.3%的多视角研究使用了统计检验来验证其发现，这削弱了许多结果的可靠性和可重复性。这一问题凸显了该领域迫切需要更严格的验证实践。该综述的主要贡献包括：一个统一的框架、首个量化证据基础以及数据驱动的指导方针。结论指出，成功的信息融合并非取决于算法复杂性，而在于融合方法与任务背景的战略对齐，以及研究人员对更严谨验证的承诺。这项研究为从业者提供了清晰的指导，并指出了未来研究应关注的方向。