AI News HubLIVE
站内改写1 分で読了

汎用大規模言語モデルが専門臨床AIを凌駕

専門臨床AIツール(OpenEvidence、UpToDate Expert AI)と最先端の大規模言語モデル(GPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6)を比較した研究で、汎用LLMがすべての評価(医学知識テスト、臨床適合性、実臨床クエリ)で専門ツールを上回った。臨床AIツールの性能はGoogle検索AI概要と同程度だった。研究成果は、臨床導入前に独立した実世界評価の必要性を強調している。

ソースHacker News AI著者: doener

『ネイチャー・メディシン』に掲載された研究では、専門的な臨床人工知能(AI)ツールと汎用大規模言語モデル(LLM)の比較評価が行われました。評価対象は、LLMベースの臨床AIツールであるOpenEvidenceとUpToDate Expert AI、そして最先端のLLMであるGPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6の3つです。

評価は3段階で実施されました。第1段階では500問のMedQA医学知識問題を使用。第2段階では500項目のHealthBenchで臨床医との一致度を測定。第3段階では、実際の臨床環境で医師が汎用言語モデルに投げかけた100件の匿名クエリから構築された実臨床クエリ(RCQ)ベンチマークを使用しました。12名の米国臨床医がモデルの出力をランダムに盲検評価し、1,800件のモデルと質問のアノテーションが生成されました。

結果、汎用LLMは3つの評価すべてで専門臨床AIツールを上回りました。一方、臨床AIツールのRCQにおける性能は、自動有効化されたGoogle検索AI概要と同程度でした。この発見は、AIツールが臨床現場に導入される前に、独立した実世界での評価が必須であることを示しています。