自动报告推导的肿瘤学VQA基准:用于评估3D医学影像视觉语言模型
本文提出一个自动化代理驱动流水线,直接从私有放射学报告和3D肿瘤学影像生成多项选择VQA数据集,产生两种互补问题类型:RADS风格问题和放射学报告推导问题。在四个内部癌症队列上进行零样本评估,发现没有主导模型且所有单元存在巨大改进空间。盲法消融显示视觉依赖高度特定于数据集:肝脏报告推导问题确实需要图像,而肺CT即使没有图像也基本可解——领先的闭源模型在盲法下超过了其有视觉时的准确率。流水线作为开放代理技能发布。
研究人员提出了一种自动化流水线,用于生成基于私有放射学报告和3D肿瘤学成像的多项选择视觉问答(VQA)基准数据集。该流水线旨在解决现有公共基准在规模、人工标注成本和潜在数据泄漏方面的问题。它产生两种互补的问题类型:一种是基于临床定义的报告模式(如RADS评分)自动推导的确定性问题,另一种是由大型语言模型根据放射科医生发现生成并通过源报告验证的问题。
应用此流水线到四个内部癌症队列后,生成了一个无实例污染控制的基准,无需每问题人工标注。对六个主流视觉语言模型的零样本评估显示,没有单一模型在所有测试中占据主导地位,且所有子任务都存在显著的改进空间。更有趣的是,一项盲法消融实验表明,视觉依赖性高度依赖于数据集:肝脏CT的报告推导问题确实需要图像信息来回答,但对于肺CT,即使在没有图像的情况下,领先的闭源模型仍能超过其有视觉时的准确率。这意味着即便使用私有临床数据,也不能保证对视觉能力的无污染评估。
该流水线已作为开放代理技能发布,允许其他研究机构内部重新部署,以构建自己的基准。这一工作为医疗影像领域视觉语言模型的评估提供了可扩展、临床相关且更可靠的方案。当前的研究还揭示了一个重要现象:在某些任务中,模型可能仅通过语言偏差就能达到较高准确率,这提醒我们在设计基准时需要更加谨慎地控制污染因素。未来,团队计划扩展流水线以覆盖更多肿瘤类型和成像模态,并探索如何更好地度量模型的真实视觉理解能力。