EHRBench:基于电子健康记录的自动化、可靠基准测试,用于评估LLM临床决策能力
EHRBench是一个自动化和可靠的基准测试,利用电子健康记录(EHR)数据,通过EHR-LLM-知识库交互流程,生成了近100万个问答项目,涵盖诊断、治疗和预后三大临床决策任务,并在30多个大型语言模型上进行了评估,揭示了当前LLM在临床可靠性方面的差距。该研究已被KDD 2026收录。
来源arXiv AI作者: Yuzhang Xie, Keqi Han, Yunpeng Xiao, Hejie Cui, Guanchen Wu, Ziyang Zhang, Kai Shu, Jiaying Lu, Xiao Hu, Carl Yang
临床决策是医疗实践的核心,医生常在信息不全的情况下进行诊断、选择治疗方案或预测预后。大型语言模型(LLM)因其语言能力、生物医学知识和效率,正越来越多地被用于辅助决策,但其在实际临床任务中的可靠性尚未被充分理解。为了填补这一空白,研究者提出了EHRBench,一个自动化且可靠的基于电子健康记录(EHR)的基准测试,用于大规模评估LLM的临床决策能力。
EHRBench通过一种创新的EHR-LLM-知识库(KB)交互流程构建。该流程使用专门的LLM自动将患者就诊级别的EHR轨迹转换为结构化模板,然后确定性实例化为问答项目。同时,系统通过知识库验证和丰富化来过滤幻觉或模糊关系,从而提高可靠性。这一流程生成了近100万个(具体为960,067个)问答项目,涵盖诊断、治疗和预后三项需要推理的核心临床决策任务。
研究人员在EHRBench上对30多个代表性LLM进行了基准测试,并提供了详细的性能和鲁棒性分析。结果显示,不同设置下的能力趋势一致,进一步验证了EHRBench的可靠性,并突出了实现临床可靠LLM系统的可行改进方向。该基准测试为未来开发更安全、更有效的临床AI助手提供了重要参考。相关论文已被2026年ACM SIGKDD国际会议(KDD 2026)数据集与基准测试轨道接收,并将进行口头报告。