AI News HubLIVE
站內改寫1 分鐘閱讀

離散擴散語言模型在交互式放射報告草稿中的應用

研究團隊將混合專家擴散語言模型DiffusionGemma-26B應用於醫學視覺問答,並與其自迴歸版本Gemma-4-26B對比。擴散模型在所有指標上匹配或超越自迴歸模型,解碼速度快3.5-4.4倍,且具備任意順序填充能力,特別適合放射科醫生交互式起草報告,而自迴歸模型在此任務上表現不佳。

來源arXiv AI作者: Max Van Puyvelde, Halil Ibrahim Gulluk, Wim Van Criekinge, Olivier Gevaert

一項新研究探索了離散擴散語言模型在放射學報告起草中的潛力,表明該架構在性能和交互性上均優於傳統的自迴歸模型。該工作由Max Van Puyvelde等人在2026年7月1日提交至arXiv的論文中報告。

研究人員採用了DiffusionGemma-26B,這是一種基於混合專家(Mixture-of-Experts)架構的擴散語言模型,擁有260億參數,但每次推理僅激活約38億參數。他們將該模型與同等尺寸的自迴歸姐妹模型Gemma-4-26B進行基準測試,兩者均採用相同的LoRA(Low-Rank Adaptation)微調方法,應用於多個醫學視覺問答(VQA)數據集。評估使用了一種對冗長度魯棒的LLM評判工具。

實驗結果表明,擴散模型在所有測試數據集上匹配或超越了自迴歸模型的表現。更重要的是,其解碼速度比自迴歸模型快3.5到4.4倍,這在實際臨牀應用中對實時性要求極為關鍵。此外,微調後的擴散模型(僅38億活躍參數)已能與當前最前沿的視覺語言模型相競爭。

擴散模型的一個獨特優勢是其天然支持任意順序填充(any-order infill)。與自迴歸模型嚴格從左到右生成文本不同,擴散模型通過雙向去噪整個token畫布來生成文本。因此,放射科醫生可以輸入一部分報告片段,讓模型智能地填補空白區域,而無需從頭到尾生成整個報告。這一能力在自迴歸模型中難以實現,且自迴歸模型在此類任務上表現不佳。這恰好契合了實際放射學報告的特點:不同臨牀醫生和機構之間的報告風格往往簡略或不一致。

該研究不僅驗證了擴散語言模型在醫學領域的高質量生成能力,還展示了一種全新的交互式報告起草範式,有望顯著提升放射科醫生的工作效率。研究團隊使用了公開的醫學VQA數據集進行評估,確保了結果的可靠性和可復現性。這篇論文的編號為arXiv:2607.01436,目前開放獲取。