離散擴散語言模型在互動式放射報告草稿中的應用
研究團隊將混合專家擴散語言模型DiffusionGemma-26B應用於醫學視覺問答,並與其自迴歸版本Gemma-4-26B對比。擴散模型在所有指標上匹配或超越自迴歸模型,解碼速度快3.5-4.4倍,且具備任意順序填充能力,特別適合放射科醫生互動式起草報告,而自迴歸模型在此任務上表現不佳。
一項新研究探索了離散擴散語言模型在放射學報告起草中的潛力,表明該架構在效能和互動性上均優於傳統的自迴歸模型。該工作由Max Van Puyvelde等人在2026年7月1日提交至arXiv的論文中報告。
研究人員採用了DiffusionGemma-26B,這是一種基於混合專家(Mixture-of-Experts)架構的擴散語言模型,擁有260億引數,但每次推理僅啟用約38億引數。他們將該模型與同等尺寸的自迴歸姐妹模型Gemma-4-26B進行基準測試,兩者均採用相同的LoRA(Low-Rank Adaptation)微調方法,應用於多個醫學視覺問答(VQA)資料集。評估使用了一種對冗長度魯棒的LLM評判工具。
實驗結果表明,擴散模型在所有測試資料集上匹配或超越了自迴歸模型的表現。更重要的是,其解碼速度比自迴歸模型快3.5到4.4倍,這在實際臨床應用中對即時性要求極為關鍵。此外,微調後的擴散模型(僅38億活躍引數)已能與當前最前沿的視覺語言模型相競爭。
擴散模型的一個獨特優勢是其天然支援任意順序填充(any-order infill)。與自迴歸模型嚴格從左到右生成文本不同,擴散模型透過雙向去噪整個token畫布來生成文本。因此,放射科醫生可以輸入一部分報告片段,讓模型智慧地填補空白區域,而無需從頭到尾生成整個報告。這一能力在自迴歸模型中難以實現,且自迴歸模型在此類任務上表現不佳。這恰好契合了實際放射學報告的特點:不同臨床醫生和機構之間的報告風格往往簡略或不一致。
該研究不僅驗證了擴散語言模型在醫學領域的高質量生成能力,還展示了一種全新的互動式報告起草正規化,有望顯著提升放射科醫生的工作效率。研究團隊使用了公開的醫學VQA資料集進行評估,確保了結果的可靠性和可復現性。這篇論文的編號為arXiv:2607.01436,目前開放獲取。