Aloe-Vision:面向医疗的鲁棒视觉语言模型
Aloe-Vision 引入了一系列开源医疗视觉语言模型,基于大规模质量过滤的数据集训练,在保持通用能力的同时取得竞争性性能,并暴露了对抗性输入下的脆弱性。
大型视觉语言模型(LVLM)在医疗领域展现出巨大潜力,但实际应用仍面临多重障碍。高质量医疗多模态数据的稀缺、安全关键场景下模型鲁棒性的不足,以及现有评估基准的狭窄性和潜在污染问题,严重限制了该领域的可靠发展。为解决这些挑战,研究团队推出了 Aloe-Vision,一个完全开放且可复现的医疗 LVLM 系统。
Aloe-Vision 的核心创新在于 Aloe-Vision-Data 数据集。这是一个大规模、经过严格质量过滤的混合数据集,整合了医学影像、临床文本等医疗多模态数据,以及通用领域的多模态和纯文本资源。该数据集设计用于直接微调模型,避免了传统数据收集中的噪声和偏差问题。基于此,团队训练了 Aloe-Vision 模型系列,包含 7B 和 72B 两种参数规模,并全部开源——包括完整权重、训练配方、数据以及详细的复现指南。
通过全面的基准测试,研究人员证明,高质量的训练数据混合能够产生均衡的 LVLM。这些模型在通用能力不受影响的前提下,相比基线模型取得了显著性能提升,甚至能够与现有最先进模型竞争。例如,在医疗图像问答和报告生成任务上,Aloe-Vision 展现了出色的表现。
为了支持更可靠的评估,团队还构建了 CareQA-Vision 基准。该基准源自西班牙 MIR 和 EIR 住院医师考试,为医学和护理专业提供新颖的视觉问题。由于考试内容定期更新且不公开,CareQA-Vision 大大降低了基准污染的风险,为评价模型真实能力提供了更干净的测试环境。
然而,研究也揭示了当前 LVLM 的一个关键弱点:它们仍然容易受到对抗性和误导性输入的干扰。即使经过高质量训练,模型在面对精心设计的对抗样本时,输出可能产生严重偏差。这凸显了在临床实践中部署 LVLM 前必须解决的可靠性挑战。
Aloe-Vision 的开源特性为社区提供了宝贵的资源,使得研究人员可以深入分析模型行为、复现结果并推动改进。该工作代表了医疗 AI 领域向开放科学和可信赖系统迈出的重要一步,但同时也提醒我们,在追求性能的同时,鲁棒性和安全性研究不可忽视。