离散扩散语言模型在交互式放射报告草稿中的应用
研究团队将混合专家扩散语言模型DiffusionGemma-26B应用于医学视觉问答,并与其自回归版本Gemma-4-26B对比。扩散模型在所有指标上匹配或超越自回归模型,解码速度快3.5-4.4倍,且具备任意顺序填充能力,特别适合放射科医生交互式起草报告,而自回归模型在此任务上表现不佳。
一项新研究探索了离散扩散语言模型在放射学报告起草中的潜力,表明该架构在性能和交互性上均优于传统的自回归模型。该工作由Max Van Puyvelde等人在2026年7月1日提交至arXiv的论文中报告。
研究人员采用了DiffusionGemma-26B,这是一种基于混合专家(Mixture-of-Experts)架构的扩散语言模型,拥有260亿参数,但每次推理仅激活约38亿参数。他们将该模型与同等尺寸的自回归姐妹模型Gemma-4-26B进行基准测试,两者均采用相同的LoRA(Low-Rank Adaptation)微调方法,应用于多个医学视觉问答(VQA)数据集。评估使用了一种对冗长度鲁棒的LLM评判工具。
实验结果表明,扩散模型在所有测试数据集上匹配或超越了自回归模型的表现。更重要的是,其解码速度比自回归模型快3.5到4.4倍,这在实际临床应用中对实时性要求极为关键。此外,微调后的扩散模型(仅38亿活跃参数)已能与当前最前沿的视觉语言模型相竞争。
扩散模型的一个独特优势是其天然支持任意顺序填充(any-order infill)。与自回归模型严格从左到右生成文本不同,扩散模型通过双向去噪整个token画布来生成文本。因此,放射科医生可以输入一部分报告片段,让模型智能地填补空白区域,而无需从头到尾生成整个报告。这一能力在自回归模型中难以实现,且自回归模型在此类任务上表现不佳。这恰好契合了实际放射学报告的特点:不同临床医生和机构之间的报告风格往往简略或不一致。
该研究不仅验证了扩散语言模型在医学领域的高质量生成能力,还展示了一种全新的交互式报告起草范式,有望显著提升放射科医生的工作效率。研究团队使用了公开的医学VQA数据集进行评估,确保了结果的可靠性和可复现性。这篇论文的编号为arXiv:2607.01436,目前开放获取。