2026-06-01 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

EHRBench：基於電子健康記錄的自動化、可靠基準測試，用於評估LLM臨牀決策能力

EHRBench是一個自動化和可靠的基準測試，利用電子健康記錄（EHR）數據，通過EHR-LLM-知識庫交互流程，生成了近100萬個問答項目，涵蓋診斷、治療和預後三大臨牀決策任務，並在30多個大型語言模型上進行了評估，揭示了當前LLM在臨牀可靠性方面的差距。該研究已被KDD 2026收錄。

來源arXiv AI作者: Yuzhang Xie, Keqi Han, Yunpeng Xiao, Hejie Cui, Guanchen Wu, Ziyang Zhang, Kai Shu, Jiaying Lu, Xiao Hu, Carl Yang

臨牀決策是醫療實踐的核心，醫生常在信息不全的情況下進行診斷、選擇治療方案或預測預後。大型語言模型（LLM）因其語言能力、生物醫學知識和效率，正越來越多地被用於輔助決策，但其在實際臨牀任務中的可靠性尚未被充分理解。為了填補這一空白，研究者提出了EHRBench，一個自動化且可靠的基於電子健康記錄（EHR）的基準測試，用於大規模評估LLM的臨牀決策能力。

EHRBench通過一種創新的EHR-LLM-知識庫（KB）交互流程構建。該流程使用專門的LLM自動將患者就診級別的EHR軌跡轉換為結構化模板，然後確定性實例化為問答項目。同時，系統通過知識庫驗證和豐富化來過濾幻覺或模糊關係，從而提高可靠性。這一流程生成了近100萬個（具體為960,067個）問答項目，涵蓋診斷、治療和預後三項需要推理的核心臨牀決策任務。

研究人員在EHRBench上對30多個代表性LLM進行了基準測試，並提供了詳細的性能和魯棒性分析。結果顯示，不同設置下的能力趨勢一致，進一步驗證了EHRBench的可靠性，並突出了實現臨牀可靠LLM系統的可行改進方向。該基準測試為未來開發更安全、更有效的臨牀AI助手提供了重要參考。相關論文已被2026年ACM SIGKDD國際會議（KDD 2026）數據集與基準測試軌道接收，並將進行口頭報告。