2026-06-16站内改写1 分鐘閱讀更新: 2026-06-16

融合並非一勞永逸：面向時間事件建模的跨模態表示對齊

該研究提出一個基於基礎模型的框架，用於CT影像和縱向電子健康記錄之間的跨模態表示對齊，並通過四種融合策略在肺栓塞死亡率和心血管疾病結局預測任務上進行了系統評估。結果表明，對比多模態融合提供了最一致的改進，而任務特定的融合策略對於魯棒泛化至關重要。

來源arXiv AI作者: Zhemin Zhang, Weijie Chen, David Le, Amara Tariq, Alex Wallace, Matthew Stib, Juan Maria Farina, Chadi Ayoub, Reza Arsanjani, Imon Banerjee

時間事件（TTE）預測在臨牀多模態數據應用中面臨模態不平衡和分佈偏移的挑戰。來自浙江大學的張哲民等研究人員在arXiv預印本上發表了一項研究，提出了一個基礎模型驅動的跨模態表示對齊框架，將CT影像與縱向電子健康記錄（EHR）數據在共享潛在空間中對齊。該框架利用領域特定的基礎模型獨立編碼CT和EHR模態，並通過四種融合策略進行對齊：延遲融合、對比對齊、交叉注意力和共注意力。

研究團隊在兩個臨牀不同的TTE任務上評估了該框架：肺栓塞（PE）死亡率和心血管疾病（CVD）結局，即主要不良心血管事件（MACE）。他們使用大規模多機構隊列，PE數據集包括3099個訓練樣本、1098個內部測試樣本和435個外部測試樣本；CVD數據集包括2951個訓練樣本、837個內部測試樣本和682個外部測試樣本。

實驗結果顯示，當模態貢獻相當時，融合策略統一比單模態基線提升了一致性指數（C-index）1.5-5.4%。總體而言，對比多模態融合，特別是與CLMBR表示結合，提供了最一致且統計上最穩健的改進，尤其在PE死亡率預測中表現突出。對於MACE預測，交叉注意力（使用獨熱編碼）在內部測試中達到最高性能，而圖像引導的共注意力在外部測試中表現最佳。

該研究首次系統分析了在TTE預測中模態不平衡下的融合行為，並提出了任務感知的多模態對齊作為魯棒泛化和可擴展臨牀部署的必要設計原則。這一框架為臨牀決策支持系統的開發提供了新的視角，強調了根據不同任務特性選擇合適的融合策略的重要性。