2026-06-01 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

EHRBench：基于电子健康记录的自动化、可靠基准测试，用于评估LLM临床决策能力

EHRBench是一个自动化和可靠的基准测试，利用电子健康记录（EHR）数据，通过EHR-LLM-知识库交互流程，生成了近100万个问答项目，涵盖诊断、治疗和预后三大临床决策任务，并在30多个大型语言模型上进行了评估，揭示了当前LLM在临床可靠性方面的差距。该研究已被KDD 2026收录。

来源arXiv AI作者: Yuzhang Xie, Keqi Han, Yunpeng Xiao, Hejie Cui, Guanchen Wu, Ziyang Zhang, Kai Shu, Jiaying Lu, Xiao Hu, Carl Yang

临床决策是医疗实践的核心，医生常在信息不全的情况下进行诊断、选择治疗方案或预测预后。大型语言模型（LLM）因其语言能力、生物医学知识和效率，正越来越多地被用于辅助决策，但其在实际临床任务中的可靠性尚未被充分理解。为了填补这一空白，研究者提出了EHRBench，一个自动化且可靠的基于电子健康记录（EHR）的基准测试，用于大规模评估LLM的临床决策能力。

EHRBench通过一种创新的EHR-LLM-知识库（KB）交互流程构建。该流程使用专门的LLM自动将患者就诊级别的EHR轨迹转换为结构化模板，然后确定性实例化为问答项目。同时，系统通过知识库验证和丰富化来过滤幻觉或模糊关系，从而提高可靠性。这一流程生成了近100万个（具体为960,067个）问答项目，涵盖诊断、治疗和预后三项需要推理的核心临床决策任务。

研究人员在EHRBench上对30多个代表性LLM进行了基准测试，并提供了详细的性能和鲁棒性分析。结果显示，不同设置下的能力趋势一致，进一步验证了EHRBench的可靠性，并突出了实现临床可靠LLM系统的可行改进方向。该基准测试为未来开发更安全、更有效的临床AI助手提供了重要参考。相关论文已被2026年ACM SIGKDD国际会议（KDD 2026）数据集与基准测试轨道接收，并将进行口头报告。