2026-05-26 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

透過資訊融合進行文件分類模式識別：多模態與多視角表示方法的系統綜述

本文對139項研究進行系統綜述，提出統一框架並進行元分析。結果顯示多模態融合使準確率平均提升5.28個百分點，多視角融合帶來準確率提升4.67%、F1分數提升3.08%，但僅少數研究使用了統計檢驗，存在可重複性問題。

來源arXiv Computational Linguistics作者: Marcin Micha{\l} Miro\'nczuk

資訊融合技術被廣泛應用於文件分類，透過整合多種資料來源（多模態）或多種表示（多視角）來提升效能。然而，該領域一直缺乏統一的理論框架、對有效性的量化綜合以及對實踐者的明確指導。為了填補這些空白，Marcin Michał Mirończuk開展了一項系統綜述，對139項原始研究進行了全面分析。該研究於2026年4月提交至arXiv，首次提出了一個正式的、結構化的框架來組織該領域，並透過定性分析識別了關鍵趨勢和挑戰。

更值得關注的是，研究團隊執行了隨機效應元分析——據我們所知，這是首個聚焦於文件分類的元分析——以量化效能提升。結果顯示，多模態融合能顯著提高準確率，平均增益達+5.28個百分點（p=0.0016）；F1分數雖呈正向趨勢，但在主要模型中未達統計顯著性。多視角融合則帶來了一致但適度的提升：準確率提高4.67%，F1分數提高3.08%，召回率也顯著提升（所有p<0.05）。這些發現為資訊融合在文件分類中的有效性提供了首個定量證據基礎。

然而，定性綜合揭示了方法論嚴謹性方面的嚴峻挑戰：僅11.8%的多模態研究和23.3%的多視角研究使用了統計檢驗來驗證其發現，這削弱了許多結果的可靠性和可重複性。這一問題凸顯了該領域迫切需要更嚴格的驗證實踐。該綜述的主要貢獻包括：一個統一的框架、首個量化證據基礎以及資料驅動的指導方針。結論指出，成功的資訊融合並非取決於演算法複雜性，而在於融合方法與任務背景的戰略對齊，以及研究人員對更嚴謹驗證的承諾。這項研究為從業者提供了清晰的指導，並指出了未來研究應關注的方向。