2026-05-27 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

卷積、Transformer、混合和視覺語言模型在多病種視網膜篩查中的基準測試

這項研究在視網膜眼底多病種影像資料集（RFMiD）上對12種架構（包括卷積神經網路、視覺Transformer、混合模型和視覺語言模型）進行了基準測試，比較它們在二元篩查和多標籤分類中的效能。結果表明，所有模型在二元篩查中表現良好（AUC>84%），但基於注意力的模型（如SwinTiny、CoAtNet0、MaxViTTiny）在二元和多標籤任務中均最優。視覺語言模型與CNN基線相當，但未超越最佳Transformer和混合模型。在Messidor-2上的外部驗證中，AUC範圍為66.8%-84.7%，混合和Transformer模型表現強勁。

來源arXiv Computer Vision作者: Durjoy Dey, Aymane Ajbar, Yuhong Yan

深度學習在醫學影像分析領域取得了顯著進展，尤其是在自動視網膜篩查方面。然而，不同視覺模型家族在真實多病種場景及域偏移下的表現差異尚不明確。為此，研究人員在視網膜眼底多病種影像資料集（RFMiD）上，對12種代表性架構進行了全面基準測試，涵蓋四大模型家族：卷積神經網路（CNN）、視覺Transformer（ViT）、CNN-Transformer混合骨幹網路以及視覺語言模型（VLM）。

研究設計了兩類任務：任意視網膜疾病的二元篩查（即判斷是否存在疾病），以及覆蓋28種疾病類別的多標籤分類。透過標準化的訓練、校準和評估流程，研究者在特異性約80%的臨床相關操作點上報告了AUC、F1、精確率、召回率和靈敏度等指標。結果顯示，所有架構在二元篩查任務中均表現出色，AUC均超過84%。然而，基於注意力機制的模型整體表現最優。具體而言，SwinTiny、混合模型CoAtNet0和MaxViTTiny在二元篩查中取得了最佳結果，並在多標籤設定中提升了宏平均和微平均F1分數。

視覺語言模型方面，包括CLIP ViT-B/16和SigLIP-Base384在內，它們與CNN基線相比具有競爭力，但未能超越頂尖的Transformer和混合骨幹網路。這一發現表明，儘管視覺語言模型在跨模態任務中潛力巨大，但在專門的醫學影像分類任務中，純視覺架構仍可能更具優勢。

此外，研究在Messidor-2資料集上進行了外部驗證，針對可轉診糖尿病視網膜病變進行分類。AUC範圍從66.8%到84.7%，混合模型和Transformer模型再次展現了強勁效能，顯示出較好的泛化能力。這些結果為多病種視網膜篩查中的模型選擇提供了可重複的參考依據，併為未來自動化篩查工具的臨床部署指明瞭方向。該論文已被ICMHI 2026（第10屆醫學與健康資訊學國際會議）接收，並將發表於ACM會議論文集。