AMN:境界と不確実性のモデリングを備えた適応的多スケール融合ネットワークによる核セグメンテーション
AMN(適応的多スケール核ネットワーク)は、Swin TransformerとResNet-50特徴ピラミッドを学習されたチャネルごとのゲーティング機構で融合するデュアルエンコーダーセグメンテーションフレームワークである。CoNICベンチマークで平均Dice 0.82、平均F1 0.68を達成し、8つのベースラインを凌駕し、MoNuSegでも強力な汎化性能を示す。
病理画像解析において、核サブタイプの正確なセグメンテーションと分類は、腫瘍グレーディング、免疫浸潤の定量化、予後予測などの下流タスクに不可欠である。しかし、既存の手法は通常、畳み込みニューラルネットワーク(CNN)またはTransformerのいずれかを単独でエンコーダーとして使用しており、細かい局所テクスチャと長距離空間コンテキストを同時に捉える能力が制限されている。この課題に対処するため、研究者らはAMN(適応的多スケール核ネットワーク)を提案する。
AMNの核心は、Swin TransformerとResNet-50特徴ピラミッドをデュアルエンコーダーとして活用し、学習されたチャネルごとのゲーティング機構を介して各スケールで各エンコーダーの寄与を動的に重み付けすることである。この設計により、ネットワークは両方のアーキテクチャからの特徴を適応的に融合し、局所的な詳細と大域的な構造の両方を捉えることができる。さらに、AMNはクラス重み付き焦点損失、陽性ピクセルを強調する境界認識損失、および過信誤予測を抑制する新規な不確実性変調分類項を組み合わせた多目的損失関数で訓練される。
CoNICベンチマークデータセットでは、AMNは7つの核クラスに対して平均Dice 0.82、平均F1 0.68を達成し、診断上困難なリンパ球クラスではF1 0.67を記録した。U-Net、ResU-Net、DeepLabV3+、SegNet、ViT-Small、HmsU-Net、ConvFormer-UNet、BEFUnetを含む8つのベースラインモデル(純粋CNN、純粋Transformer、最近のハイブリッドアーキテクチャ)と比較して、AMNはすべての指標で優れていた。さらに、MoNuSegでのクロスデータセット評価では、再学習なしで強力な汎化性能を示し、学習された表現のドメインロバスト性が確認された。
この研究は、巧みに設計されたデュアルエンコーダー融合とマルチタスク学習戦略により、病理画像における核セグメンテーションの精度と信頼性を大幅に向上させ、臨床診断や医学研究に強力なツールを提供できることを示している。