EHRBench:基於電子健康記錄的自動化、可靠基準測試,用於評估LLM臨牀決策能力
EHRBench是一個自動化和可靠的基準測試,利用電子健康記錄(EHR)數據,通過EHR-LLM-知識庫交互流程,生成了近100萬個問答項目,涵蓋診斷、治療和預後三大臨牀決策任務,並在30多個大型語言模型上進行了評估,揭示了當前LLM在臨牀可靠性方面的差距。該研究已被KDD 2026收錄。
來源arXiv AI作者: Yuzhang Xie, Keqi Han, Yunpeng Xiao, Hejie Cui, Guanchen Wu, Ziyang Zhang, Kai Shu, Jiaying Lu, Xiao Hu, Carl Yang
臨牀決策是醫療實踐的核心,醫生常在信息不全的情況下進行診斷、選擇治療方案或預測預後。大型語言模型(LLM)因其語言能力、生物醫學知識和效率,正越來越多地被用於輔助決策,但其在實際臨牀任務中的可靠性尚未被充分理解。為了填補這一空白,研究者提出了EHRBench,一個自動化且可靠的基於電子健康記錄(EHR)的基準測試,用於大規模評估LLM的臨牀決策能力。
EHRBench通過一種創新的EHR-LLM-知識庫(KB)交互流程構建。該流程使用專門的LLM自動將患者就診級別的EHR軌跡轉換為結構化模板,然後確定性實例化為問答項目。同時,系統通過知識庫驗證和豐富化來過濾幻覺或模糊關係,從而提高可靠性。這一流程生成了近100萬個(具體為960,067個)問答項目,涵蓋診斷、治療和預後三項需要推理的核心臨牀決策任務。
研究人員在EHRBench上對30多個代表性LLM進行了基準測試,並提供了詳細的性能和魯棒性分析。結果顯示,不同設置下的能力趨勢一致,進一步驗證了EHRBench的可靠性,並突出了實現臨牀可靠LLM系統的可行改進方向。該基準測試為未來開發更安全、更有效的臨牀AI助手提供了重要參考。相關論文已被2026年ACM SIGKDD國際會議(KDD 2026)數據集與基準測試軌道接收,並將進行口頭報告。