2026-05-27 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

畳み込み、Transformer、ハイブリッド、視覚言語モデルの多疾患網膜スクリーニングにおけるベンチマーク

この研究では、網膜眼底多疾患画像データセット（RFMiD）を用いて、12のアーキテクチャ（畳み込みニューラルネットワーク、視覚Transformer、ハイブリッドモデル、視覚言語モデル）を二元スクリーニングとマルチラベル分類で比較評価しました。すべてのモデルは二元スクリーニングで良好な成績（AUC>84%）を示しましたが、注意機構ベースのモデル（SwinTiny、CoAtNet0、MaxViTTiny）が最良でした。視覚言語モデルはCNNベースラインと同等でしたが、最良のTransformerやハイブリッドモデルには及びませんでした。Messidor-2での外部検証では、AUCは66.8%～84.7%の範囲で、ハイブリッドモデルとTransformerモデルが強い性能を示しました。

ソースarXiv Computer Vision著者: Durjoy Dey, Aymane Ajbar, Yuhong Yan

記事インテリジェンス

投資家上級

要点

RFMiDデータセットにおいて、注意機構ベースのモデル（SwinTiny、CoAtNet0、MaxViTTiny）が多疾患網膜スクリーニングで最良の成績。
視覚言語モデル（CLIP ViT-B/16など）はCNNと競合するが、最良のTransformer/ハイブリッドには及ばない。
外部検証では、ハイブリッドモデルとTransformerモデルが糖尿病網膜症スクリーニングで優れた汎化性能を示す。

重要な理由

このニュースが重要なのは、RFMiDデータセットにおいて、注意機構ベースのモデル（SwinTiny、CoAtNet0、MaxViTTiny）が多疾患網膜スクリーニングで最良の成績ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

深層学習は自動網膜スクリーニングに強力なツールを提供しているが、実際の多疾患環境やドメインシフト下での異なる視覚モデルファミリー間の比較はまだ明確でない。本研究では、網膜眼底多疾患画像データセット（RFMiD）を用いて、畳み込みニューラルネットワーク（CNN）、視覚Transformer（ViT）、CNN-Transformerハイブリッドバックボーン、視覚言語モデル（VLM）の4つのモデルファミリーにわたる12のアーキテクチャをベンチマークした。

評価タスクは、任意の網膜疾患の二元スクリーニングと、28の疾患クラスにわたるマルチラベル分類の2つである。標準化されたトレーニング、キャリブレーション、評価プロトコルを用いて、特異度約80%の臨床関連動作点でのAUC、F1、適合率、再現率、感度を報告している。RFMiDでは、すべてのアーキテクチャが二元スクリーニングで良好な性能（AUC>84%）を示したが、注意機構ベースのモデルが最良であった。SwinTiny、ハイブリッドモデルのCoAtNet0およびMaxViTTinyは、二元スクリーニングで最も強い結果を達成し、マルチラベル設定でもマクロおよびミクロF1を改善した。

CLIP ViT-B/16やSigLIP-Base384を含む視覚言語モデルは、CNNベースラインと競合したが、最良のTransformerやハイブリッドバックボーンを超えることはなかった。これは、視覚言語モデルがクロスモーダルタスクで大きな可能性を秘めている一方、専門的な医用画像分類では純粋な視覚アーキテクチャが依然として優位性を持つ可能性を示唆している。

さらに、Messidor-2データセットでの外部検証（可参照糖尿病網膜症の分類）では、AUCは66.8%から84.7%の範囲であり、ハイブリッドモデルとTransformerモデルが再び強い性能を示し、良好な汎化能力を確認した。これらの結果は、多疾患網膜スクリーニングにおけるモデル選択のための再現可能なリファレンスを提供し、将来の自動スクリーニングツールの臨床展開を導くものである。本論文はICMHI 2026（第10回医療・健康情報学国際会議）に採択され、ACM会議録に掲載予定である。