2026-06-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-29 16:12 UTC+8

Aloe-Vision：面向医疗的鲁棒视觉语言模型

Aloe-Vision 引入了一系列开源医疗视觉语言模型，基于大规模质量过滤的数据集训练，在保持通用能力的同时取得竞争性性能，并暴露了对抗性输入下的脆弱性。

来源arXiv Computer Vision作者: Jaume Guasch-Mart\'i, Enrique Lopez-Cuena, Mart\'in Su\'arez-Fern\'andez, Jordi Bayarri-Planas, Anna Arias-Duart, Dario Garcia-Gasulla

大型视觉语言模型（LVLM）在医疗领域展现出巨大潜力，但实际应用仍面临多重障碍。高质量医疗多模态数据的稀缺、安全关键场景下模型鲁棒性的不足，以及现有评估基准的狭窄性和潜在污染问题，严重限制了该领域的可靠发展。为解决这些挑战，研究团队推出了 Aloe-Vision，一个完全开放且可复现的医疗 LVLM 系统。

Aloe-Vision 的核心创新在于 Aloe-Vision-Data 数据集。这是一个大规模、经过严格质量过滤的混合数据集，整合了医学影像、临床文本等医疗多模态数据，以及通用领域的多模态和纯文本资源。该数据集设计用于直接微调模型，避免了传统数据收集中的噪声和偏差问题。基于此，团队训练了 Aloe-Vision 模型系列，包含 7B 和 72B 两种参数规模，并全部开源——包括完整权重、训练配方、数据以及详细的复现指南。

通过全面的基准测试，研究人员证明，高质量的训练数据混合能够产生均衡的 LVLM。这些模型在通用能力不受影响的前提下，相比基线模型取得了显著性能提升，甚至能够与现有最先进模型竞争。例如，在医疗图像问答和报告生成任务上，Aloe-Vision 展现了出色的表现。

为了支持更可靠的评估，团队还构建了 CareQA-Vision 基准。该基准源自西班牙 MIR 和 EIR 住院医师考试，为医学和护理专业提供新颖的视觉问题。由于考试内容定期更新且不公开，CareQA-Vision 大大降低了基准污染的风险，为评价模型真实能力提供了更干净的测试环境。

然而，研究也揭示了当前 LVLM 的一个关键弱点：它们仍然容易受到对抗性和误导性输入的干扰。即使经过高质量训练，模型在面对精心设计的对抗样本时，输出可能产生严重偏差。这凸显了在临床实践中部署 LVLM 前必须解决的可靠性挑战。

Aloe-Vision 的开源特性为社区提供了宝贵的资源，使得研究人员可以深入分析模型行为、复现结果并推动改进。该工作代表了医疗 AI 领域向开放科学和可信赖系统迈出的重要一步，但同时也提醒我们，在追求性能的同时，鲁棒性和安全性研究不可忽视。