AI News HubLIVE
サイト内リライト2 分で読了

インタラクティブな放射線レポート作成のための離散拡散言語モデル

研究チームは、混合エキスパート拡散言語モデルDiffusionGemma-26Bを医用視覚質問応答に適応し、自己回帰モデルと比較。拡散モデルは全ての指標で自己回帰モデルに匹敵または上回り、復号速度は3.5~4.4倍高速で、任意順序のインフィル機能を提供。放射線科医がレポート断片を固定し、その間をモデルに埋めさせる対話的な作成が可能となる。

ソースarXiv AI著者: Max Van Puyvelde, Halil Ibrahim Gulluk, Wim Van Criekinge, Olivier Gevaert

新しい研究により、離散拡散言語モデルが放射線レポート作成において有望であることが示されました。この研究はMax Van Puyvelveらによって行われ、2026年7月1日にarXivで公開されました(論文ID: 2607.01436)。

研究チームは、混合エキスパート(MoE)アーキテクチャを採用した拡散言語モデルDiffusionGemma-26Bを医用視覚質問応答(VQA)タスクに適用しました。このモデルは総パラメータ数260億ですが、推論時には約38億のパラメータのみがアクティブになります。彼らは、同じサイズの自己回帰モデルGemma-4-26Bと、同一のLoRA(Low-Rank Adaptation)設定で比較ベンチマークを実施しました。評価には、冗長性にロバストなLLM判定器を用いています。

結果、拡散モデルは全ての医用VQAデータセットにおいて自己回帰モデルと同等以上の性能を達成しました。さらに、復号速度は自己回帰モデルの3.5倍から4.4倍高速であり、これは臨床現場でのリアルタイム性において大きな利点です。微調整後の拡散モデル(アクティブパラメータ38億)は、最先端の視覚言語モデルとも競合できる性能を示しました。

拡散モデルの特筆すべき利点は、任意順序のインフィル(any-order infill)機能です。自己回帰モデルが左から右へトークンを逐次生成するのに対し、拡散モデルはトークンキャンバス全体を双方向にノイズ除去することでテキストを生成します。そのため、放射線科医はレポートの一部を固定し、モデルにその間のテキストを補完させることができます。この機能は自己回帰モデルでは本質的に困難であり、実際の臨床現場で見られる、医師や施設によってスタイルが異なる簡潔なレポートに非常に適しています。

この研究は、拡散言語モデルが医療分野で高品質なテキスト生成を実現するだけでなく、放射線科医のワークフローを変革するインタラクティブなレポート作成の新たなパラダイムを提供することを示しています。論文はオープンアクセスで公開されており、医学VQAデータセットを用いた評価により結果の信頼性が確保されています。