2026-07-03 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-03 15:58 UTC+8

离散扩散语言模型在交互式放射报告草稿中的应用

研究团队将混合专家扩散语言模型DiffusionGemma-26B应用于医学视觉问答，并与其自回归版本Gemma-4-26B对比。扩散模型在所有指标上匹配或超越自回归模型，解码速度快3.5-4.4倍，且具备任意顺序填充能力，特别适合放射科医生交互式起草报告，而自回归模型在此任务上表现不佳。

来源arXiv AI作者: Max Van Puyvelde, Halil Ibrahim Gulluk, Wim Van Criekinge, Olivier Gevaert

一项新研究探索了离散扩散语言模型在放射学报告起草中的潜力，表明该架构在性能和交互性上均优于传统的自回归模型。该工作由Max Van Puyvelde等人在2026年7月1日提交至arXiv的论文中报告。

研究人员采用了DiffusionGemma-26B，这是一种基于混合专家（Mixture-of-Experts）架构的扩散语言模型，拥有260亿参数，但每次推理仅激活约38亿参数。他们将该模型与同等尺寸的自回归姐妹模型Gemma-4-26B进行基准测试，两者均采用相同的LoRA（Low-Rank Adaptation）微调方法，应用于多个医学视觉问答（VQA）数据集。评估使用了一种对冗长度鲁棒的LLM评判工具。

实验结果表明，扩散模型在所有测试数据集上匹配或超越了自回归模型的表现。更重要的是，其解码速度比自回归模型快3.5到4.4倍，这在实际临床应用中对实时性要求极为关键。此外，微调后的扩散模型（仅38亿活跃参数）已能与当前最前沿的视觉语言模型相竞争。

扩散模型的一个独特优势是其天然支持任意顺序填充（any-order infill）。与自回归模型严格从左到右生成文本不同，扩散模型通过双向去噪整个token画布来生成文本。因此，放射科医生可以输入一部分报告片段，让模型智能地填补空白区域，而无需从头到尾生成整个报告。这一能力在自回归模型中难以实现，且自回归模型在此类任务上表现不佳。这恰好契合了实际放射学报告的特点：不同临床医生和机构之间的报告风格往往简略或不一致。

该研究不仅验证了扩散语言模型在医学领域的高质量生成能力，还展示了一种全新的交互式报告起草范式，有望显著提升放射科医生的工作效率。研究团队使用了公开的医学VQA数据集进行评估，确保了结果的可靠性和可复现性。这篇论文的编号为arXiv:2607.01436，目前开放获取。