AI News HubLIVE
站内改写1 分钟阅读

面向纵向胸部X光报告的过渡感知最佳N采样

本文提出了一种无需训练的过渡感知最佳N采样方案,用于预训练的胸部X光报告生成器。该方法通过将报告拆分为句子并嵌入向量,利用集合间距离编码前后变化,并通过余弦距离评分候选。在多个视觉-语言生成器上评估,该方法优于随机选择,尤其在印象部分提升最大。

来源arXiv Computer Vision作者: Halil Ibrahim Gulluk, Max Van Puyvelde, Wim Van Criekinge, Olivier Gevaert

在纵向临床实践中,每次胸部X光检查都需要结合患者之前的检查结果进行解读,而放射科医生报告中的大部分内容都是描述两次就诊之间的变化。然而,现有的自动报告生成模型往往忽略了这一关键的纵向上下文。为了解决这一问题,斯坦福大学和根特大学的研究人员提出了一种无需额外训练的过渡感知最佳N采样方案,这是首个专门为预训练胸部X光报告生成器设计的、能够明确考虑从纵向先验到当前检查过渡的采样方法。

该方法被命名为过渡感知最佳N采样(Transition-Aware Best-of-N Sampling)。其核心流程包括:首先将每个报告拆分为句子,并利用语言模型将这些句子嵌入到R^d空间中的无序集合中;然后,对于每个(先前报告,当前报告)对,通过一种集合到集合的距离函数将其简化为一个固定维度的方向向量,该距离函数旨在捕捉两个集合之间的变化;最后,通过计算候选报告的过渡向量与预先缓存的地面真实训练过渡向量库之间的余弦距离来评分,并采用最小值或k近邻聚合得到最终得分。

研究团队实证了四种不同的方向集合距离:均值偏移(Mean-Shift)、新颖性残差(Novelty Residual)、有向豪斯多夫锚点(Directed-Hausdorff Anchor)和成本加权最优传输(Cost-Weighted Optimal Transport)。他们在包含多次就诊的AP-PA队列上进行了评估,使用了三个不同的提示(prompt)和三个不同的视觉-语言生成器进行推理实验。结果表明,过渡感知最佳N采样在所有评估指标上都优于随机选择,其中在“印象”(Impression)部分的提升最为显著。

这项工作于2026年6月23日提交至arXiv,作者包括Halil Ibrahim Gulluk、Max Van Puyvelde、Wim Van Criekinge和Olivier Gevaert。该研究有望提高胸部X光报告生成的准确性,特别是对于疾病进展或恢复的描述,从而为临床决策提供更好的支持。通过引入对这种纵向变化的认识,该方法无需重新训练模型即可提升现有报告生成器的性能,具有重要的实用价值。