通用大语言模型胜过专用临床AI
一项新研究对两款专用临床AI工具(OpenEvidence和UpToDate Expert AI)与三款前沿大语言模型(GPT-5.2、Gemini 3.1 Pro和Claude Opus 4.6)进行了比较。结果显示,前沿LLM在医学知识测试、临床一致性评估和真实临床查询基准中均优于专用工具。临床AI工具的表现与谷歌搜索AI概览相当。研究强调,在AI工具进入临床前需进行独立的真实世界评估。
一项发表在《自然·医学》上的研究对专用临床人工智能(AI)工具与通用大语言模型(LLM)进行了全面对比。研究评估了OpenEvidence和UpToDate Expert AI这两款基于LLM构建的临床AI工具,并与GPT-5.2、Gemini 3.1 Pro和Claude Opus 4.6三款前沿LLM进行了较量。
评估分为三个阶段:首先,使用500道MedQA医学知识题测试模型的知识水平;其次,通过500项HealthBench项目衡量模型与临床医生的一致性;最后,利用真实临床查询(RCQ)基准,该基准包含100个来自医生在真实临床环境中向通用语言模型提问的去标识化查询。12名美国临床医生对模型输出进行了随机盲审,产生了1800条模型与问题的标注。
结果显示,前沿LLM在所有三项评估中均优于专用临床AI工具。而临床AI工具在RCQ上的表现与自动启用的谷歌搜索AI概览相当。这些发现强调了在AI工具进入临床环境之前,需要进行独立的真实世界评估,以确保其有效性和安全性。