EHRBench:基於電子健康記錄的自動化、可靠基準測試,用於評估LLM臨床決策能力
EHRBench是一個自動化和可靠的基準測試,利用電子健康記錄(EHR)資料,透過EHR-LLM-知識庫互動流程,生成了近100萬個問答專案,涵蓋診斷、治療和預後三大臨床決策任務,並在30多個大型語言模型上進行了評估,揭示了當前LLM在臨床可靠性方面的差距。該研究已被KDD 2026收錄。
來源arXiv AI作者: Yuzhang Xie, Keqi Han, Yunpeng Xiao, Hejie Cui, Guanchen Wu, Ziyang Zhang, Kai Shu, Jiaying Lu, Xiao Hu, Carl Yang
臨床決策是醫療實踐的核心,醫生常在資訊不全的情況下進行診斷、選擇治療方案或預測預後。大型語言模型(LLM)因其語言能力、生物醫學知識和效率,正越來越多地被用於輔助決策,但其在實際臨床任務中的可靠性尚未被充分理解。為了填補這一空白,研究者提出了EHRBench,一個自動化且可靠的基於電子健康記錄(EHR)的基準測試,用於大規模評估LLM的臨床決策能力。
EHRBench透過一種創新的EHR-LLM-知識庫(KB)互動流程構建。該流程使用專門的LLM自動將患者就診級別的EHR軌跡轉換為結構化模板,然後確定性例項化為問答專案。同時,系統透過知識庫驗證和豐富化來過濾幻覺或模糊關係,從而提高可靠性。這一流程生成了近100萬個(具體為960,067個)問答專案,涵蓋診斷、治療和預後三項需要推理的核心臨床決策任務。
研究人員在EHRBench上對30多個代表性LLM進行了基準測試,並提供了詳細的效能和魯棒性分析。結果顯示,不同設定下的能力趨勢一致,進一步驗證了EHRBench的可靠性,並突出了實現臨床可靠LLM系統的可行改進方向。該基準測試為未來開發更安全、更有效的臨床AI助手提供了重要參考。相關論文已被2026年ACM SIGKDD國際會議(KDD 2026)資料集與基準測試軌道接收,並將進行口頭報告。