融合并非一劳永逸:面向时间事件建模的跨模态表示对齐
该研究提出一个基于基础模型的框架,用于CT影像和纵向电子健康记录之间的跨模态表示对齐,并通过四种融合策略在肺栓塞死亡率和心血管疾病结局预测任务上进行了系统评估。结果表明,对比多模态融合提供了最一致的改进,而任务特定的融合策略对于鲁棒泛化至关重要。
时间事件(TTE)预测在临床多模态数据应用中面临模态不平衡和分布偏移的挑战。来自浙江大学的张哲民等研究人员在arXiv预印本上发表了一项研究,提出了一个基础模型驱动的跨模态表示对齐框架,将CT影像与纵向电子健康记录(EHR)数据在共享潜在空间中对齐。该框架利用领域特定的基础模型独立编码CT和EHR模态,并通过四种融合策略进行对齐:延迟融合、对比对齐、交叉注意力和共注意力。
研究团队在两个临床不同的TTE任务上评估了该框架:肺栓塞(PE)死亡率和心血管疾病(CVD)结局,即主要不良心血管事件(MACE)。他们使用大规模多机构队列,PE数据集包括3099个训练样本、1098个内部测试样本和435个外部测试样本;CVD数据集包括2951个训练样本、837个内部测试样本和682个外部测试样本。
实验结果显示,当模态贡献相当时,融合策略统一比单模态基线提升了一致性指数(C-index)1.5-5.4%。总体而言,对比多模态融合,特别是与CLMBR表示结合,提供了最一致且统计上最稳健的改进,尤其在PE死亡率预测中表现突出。对于MACE预测,交叉注意力(使用独热编码)在内部测试中达到最高性能,而图像引导的共注意力在外部测试中表现最佳。
该研究首次系统分析了在TTE预测中模态不平衡下的融合行为,并提出了任务感知的多模态对齐作为鲁棒泛化和可扩展临床部署的必要设计原则。这一框架为临床决策支持系统的开发提供了新的视角,强调了根据不同任务特性选择合适的融合策略的重要性。