2026-05-27 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

卷积、Transformer、混合和视觉语言模型在多病种视网膜筛查中的基准测试

这项研究在视网膜眼底多病种图像数据集（RFMiD）上对12种架构（包括卷积神经网络、视觉Transformer、混合模型和视觉语言模型）进行了基准测试，比较它们在二元筛查和多标签分类中的性能。结果表明，所有模型在二元筛查中表现良好（AUC>84%），但基于注意力的模型（如SwinTiny、CoAtNet0、MaxViTTiny）在二元和多标签任务中均最优。视觉语言模型与CNN基线相当，但未超越最佳Transformer和混合模型。在Messidor-2上的外部验证中，AUC范围为66.8%-84.7%，混合和Transformer模型表现强劲。

来源arXiv Computer Vision作者: Durjoy Dey, Aymane Ajbar, Yuhong Yan

深度学习在医学影像分析领域取得了显著进展，尤其是在自动视网膜筛查方面。然而，不同视觉模型家族在真实多病种场景及域偏移下的表现差异尚不明确。为此，研究人员在视网膜眼底多病种图像数据集（RFMiD）上，对12种代表性架构进行了全面基准测试，涵盖四大模型家族：卷积神经网络（CNN）、视觉Transformer（ViT）、CNN-Transformer混合骨干网络以及视觉语言模型（VLM）。

研究设计了两类任务：任意视网膜疾病的二元筛查（即判断是否存在疾病），以及覆盖28种疾病类别的多标签分类。通过标准化的训练、校准和评估流程，研究者在特异性约80%的临床相关操作点上报告了AUC、F1、精确率、召回率和灵敏度等指标。结果显示，所有架构在二元筛查任务中均表现出色，AUC均超过84%。然而，基于注意力机制的模型整体表现最优。具体而言，SwinTiny、混合模型CoAtNet0和MaxViTTiny在二元筛查中取得了最佳结果，并在多标签设置中提升了宏平均和微平均F1分数。

视觉语言模型方面，包括CLIP ViT-B/16和SigLIP-Base384在内，它们与CNN基线相比具有竞争力，但未能超越顶尖的Transformer和混合骨干网络。这一发现表明，尽管视觉语言模型在跨模态任务中潜力巨大，但在专门的医学图像分类任务中，纯视觉架构仍可能更具优势。

此外，研究在Messidor-2数据集上进行了外部验证，针对可转诊糖尿病视网膜病变进行分类。AUC范围从66.8%到84.7%，混合模型和Transformer模型再次展现了强劲性能，显示出较好的泛化能力。这些结果为多病种视网膜筛查中的模型选择提供了可重复的参考依据，并为未来自动化筛查工具的临床部署指明了方向。该论文已被ICMHI 2026（第10届医学与健康信息学国际会议）接收，并将发表于ACM会议论文集。