2026-06-16站内改写2 分钟阅读更新: 2026-06-16

ReportQA：基于问答的放射学报告评估方法

ReportQA是一种新型放射学报告评估框架，通过构建知识树和生成问答对，利用大语言模型作为裁判计算QAScore，解决了传统指标临床相关性不足和覆盖实体有限的问题。实验表明QAScore与放射科医生判断更一致，并揭示了基于报告推理范式的局限性。

来源arXiv Computational Linguistics作者: Yiming Shi, Shaoshuai Yang, Xi Chen, Haolin Li, Hengyu Zhang, Che Jiang, Kaiwen Wang, Xun Zhu, Dong Xie, Fei Wang, Dejing Dou, Miao Li, Ji Wu

放射学报告的自动生成是人工智能在医疗领域的重要应用，而如何有效评估这些报告的质量一直是研究难点。2026年6月13日，Yiming Shi等人在arXiv上提交了一篇题为《ReportQA: QA-Based Radiology Report Evaluation》的论文，提出了一种基于问答（QA）的放射学报告评估框架。该研究指出，传统的自然语言生成（NLG）指标，如BLEU、ROUGE等，在临床相关性方面存在明显不足；而临床效能（CE）指标虽然能够评估重要医学发现，但主要关注异常的存在与否，且覆盖的实体种类有限。更关键的是，CE指标高度依赖人工标注，难以扩展到新的临床实体或属性，这限制了其在实际中的应用。

基于放射学报告在临床实践中作为信息传递媒介的观察——临床医生通常不需要直接查看原始影像，而是依赖报告进行诊断决策——研究者提出了ReportQA框架。该框架首先收集了涵盖多种成像模态（如X光、CT、MRI）和解剖区域（如胸部、腹部、骨骼）的数据集。然后，在放射科医生的指导下，构建了包含临床实体和属性的知识树，并利用大语言模型（LLM）从原始报告中提取结构化信息。接下来，从预定义的模板生成问答对，并通过自过滤和基于报告的过滤进行质量控制，以确保问答对的相关性和准确性。在评估阶段，将待评估的报告作为上下文，由LLM作为裁判模型回答这些问答对，基于问答准确率计算QAScore指标。

研究者将QAScore与多种现有指标进行了比较，包括NLG指标和CE指标。实验结果显示，QAScore与放射科医生判断的一致性更高。此外，在多个最先进的视觉-语言模型（如CheXagent、RadBERT等）上的实验表明，当前主流的基于报告推理的评估范式难以学习到细粒度的临床表示，并且表现出强烈的负面先验偏见——即模型倾向于预测常见的阴性发现，而忽略不常见的异常。相比之下，基于问题的推理（即ReportQA所采用的方式）能够更有效地评估报告质量。

为了促进研究的可重复性和可扩展性，研究者公开了知识树、结构化报告、问答对以及用于问答构建和评估的流水线代码。该论文的arXiv识别号为2606.15037，所属学科为计算机语言学和计算机视觉与模式识别。这一工作为放射学报告评估领域提供了新的视角和实用工具，有望加速自动报告生成系统的优化和部署。