2026-06-01 13:00 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 22:03 UTC+9

EHRBench：LLMによる臨床意思決定のための自動化・信頼性の高いEHRベースのベンチマーク

EHRBenchは、電子健康記録（EHR）を活用し、EHR-LLM-知識ベースのパイプラインを通じて診断、治療、予後の3つのタスクをカバーする約100万のQA項目を自動生成する信頼性の高いベンチマークです。30以上のLLMを評価し、一貫した性能傾向と臨床的信頼性へのギャップを明らかにしました。本研究はKDD 2026に採択されています。

ソースarXiv AI著者: Yuzhang Xie, Keqi Han, Yunpeng Xiao, Hejie Cui, Guanchen Wu, Ziyang Zhang, Kai Shu, Jiaying Lu, Xiao Hu, Carl Yang

臨床意思決定（CDM）は実際の医療現場の中核であり、医師は不完全な証拠のもとで診断、治療選択、予後予測を行います。LLMは言語能力と広範な生物医学知識、効率性から意思決定支援に活用されつつありますが、実臨床タスクにおける信頼性は十分に理解されていません。このギャップを埋めるため、研究者らはEHRBenchを提案しました。これは電子健康記録（EHR）に基づく自動化され信頼性の高いベンチマークであり、LLMベースの臨床意思決定を大規模に評価することを目的としています。

EHRBenchはEHR-LLM-知識ベース（KB）インタラクションパイプラインにより構築されます。専用LLMが患者来院レベルのEHR軌跡を構造化テンプレートに自動変換し、決定論的にQA項目をインスタンス化します。並行して、系統的なKBベースの検証と拡張を適用し、幻覚や曖昧な関係をフィルタリングして信頼性を向上させます。このパイプラインを用いて、診断、治療、予後の3つの推論を要する臨床意思決定タスクをカバーする約96万（960,067）のQA項目を構築しました。

30以上の代表的なLLMをEHRBenchでベンチマークし、性能とロバスト性の詳細な分析を提供しました。結果は設定間で一貫した能力傾向を示し、EHRBenchの信頼性をさらに検証するとともに、臨床的に信頼できるLLMシステムへの具体的な改善点を浮き彫りにしました。このベンチマークは、より安全で効果的な臨床AIアシスタントの開発に重要な知見を提供します。本論文は2026年のACM SIGKDD国際会議（KDD 2026）のデータセットおよびベンチマークトラックで口頭発表として採択されています。