AI News HubLIVE
站内改写2 分钟阅读

ReportQA:基于问答的放射学报告评估方法

ReportQA是一种新型放射学报告评估框架,通过构建知识树和生成问答对,利用大语言模型作为裁判计算QAScore,解决了传统指标临床相关性不足和覆盖实体有限的问题。实验表明QAScore与放射科医生判断更一致,并揭示了基于报告推理范式的局限性。

来源arXiv Computational Linguistics作者: Yiming Shi, Shaoshuai Yang, Xi Chen, Haolin Li, Hengyu Zhang, Che Jiang, Kaiwen Wang, Xun Zhu, Dong Xie, Fei Wang, Dejing Dou, Miao Li, Ji Wu

放射学报告的自动生成是人工智能在医疗领域的重要应用,而如何有效评估这些报告的质量一直是研究难点。2026年6月13日,Yiming Shi等人在arXiv上提交了一篇题为《ReportQA: QA-Based Radiology Report Evaluation》的论文,提出了一种基于问答(QA)的放射学报告评估框架。该研究指出,传统的自然语言生成(NLG)指标,如BLEU、ROUGE等,在临床相关性方面存在明显不足;而临床效能(CE)指标虽然能够评估重要医学发现,但主要关注异常的存在与否,且覆盖的实体种类有限。更关键的是,CE指标高度依赖人工标注,难以扩展到新的临床实体或属性,这限制了其在实际中的应用。

基于放射学报告在临床实践中作为信息传递媒介的观察——临床医生通常不需要直接查看原始影像,而是依赖报告进行诊断决策——研究者提出了ReportQA框架。该框架首先收集了涵盖多种成像模态(如X光、CT、MRI)和解剖区域(如胸部、腹部、骨骼)的数据集。然后,在放射科医生的指导下,构建了包含临床实体和属性的知识树,并利用大语言模型(LLM)从原始报告中提取结构化信息。接下来,从预定义的模板生成问答对,并通过自过滤和基于报告的过滤进行质量控制,以确保问答对的相关性和准确性。在评估阶段,将待评估的报告作为上下文,由LLM作为裁判模型回答这些问答对,基于问答准确率计算QAScore指标。

研究者将QAScore与多种现有指标进行了比较,包括NLG指标和CE指标。实验结果显示,QAScore与放射科医生判断的一致性更高。此外,在多个最先进的视觉-语言模型(如CheXagent、RadBERT等)上的实验表明,当前主流的基于报告推理的评估范式难以学习到细粒度的临床表示,并且表现出强烈的负面先验偏见——即模型倾向于预测常见的阴性发现,而忽略不常见的异常。相比之下,基于问题的推理(即ReportQA所采用的方式)能够更有效地评估报告质量。

为了促进研究的可重复性和可扩展性,研究者公开了知识树、结构化报告、问答对以及用于问答构建和评估的流水线代码。该论文的arXiv识别号为2606.15037,所属学科为计算机语言学和计算机视觉与模式识别。这一工作为放射学报告评估领域提供了新的视角和实用工具,有望加速自动报告生成系统的优化和部署。