2026-07-03 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-03 15:58 UTC+8

離散擴散語言模型在互動式放射報告草稿中的應用

研究團隊將混合專家擴散語言模型DiffusionGemma-26B應用於醫學視覺問答，並與其自迴歸版本Gemma-4-26B對比。擴散模型在所有指標上匹配或超越自迴歸模型，解碼速度快3.5-4.4倍，且具備任意順序填充能力，特別適合放射科醫生互動式起草報告，而自迴歸模型在此任務上表現不佳。

來源arXiv AI作者: Max Van Puyvelde, Halil Ibrahim Gulluk, Wim Van Criekinge, Olivier Gevaert

一項新研究探索了離散擴散語言模型在放射學報告起草中的潛力，表明該架構在效能和互動性上均優於傳統的自迴歸模型。該工作由Max Van Puyvelde等人在2026年7月1日提交至arXiv的論文中報告。

研究人員採用了DiffusionGemma-26B，這是一種基於混合專家（Mixture-of-Experts）架構的擴散語言模型，擁有260億引數，但每次推理僅啟用約38億引數。他們將該模型與同等尺寸的自迴歸姐妹模型Gemma-4-26B進行基準測試，兩者均採用相同的LoRA（Low-Rank Adaptation）微調方法，應用於多個醫學視覺問答（VQA）資料集。評估使用了一種對冗長度魯棒的LLM評判工具。

實驗結果表明，擴散模型在所有測試資料集上匹配或超越了自迴歸模型的表現。更重要的是，其解碼速度比自迴歸模型快3.5到4.4倍，這在實際臨床應用中對即時性要求極為關鍵。此外，微調後的擴散模型（僅38億活躍引數）已能與當前最前沿的視覺語言模型相競爭。

擴散模型的一個獨特優勢是其天然支援任意順序填充（any-order infill）。與自迴歸模型嚴格從左到右生成文本不同，擴散模型透過雙向去噪整個token畫布來生成文本。因此，放射科醫生可以輸入一部分報告片段，讓模型智慧地填補空白區域，而無需從頭到尾生成整個報告。這一能力在自迴歸模型中難以實現，且自迴歸模型在此類任務上表現不佳。這恰好契合了實際放射學報告的特點：不同臨床醫生和機構之間的報告風格往往簡略或不一致。

該研究不僅驗證了擴散語言模型在醫學領域的高質量生成能力，還展示了一種全新的互動式報告起草正規化，有望顯著提升放射科醫生的工作效率。研究團隊使用了公開的醫學VQA資料集進行評估，確保了結果的可靠性和可復現性。這篇論文的編號為arXiv:2607.01436，目前開放獲取。