2026-06-14站内改写1 分钟阅读更新: 2026-06-14

通用大语言模型胜过专用临床AI

一项新研究对两款专用临床AI工具（OpenEvidence和UpToDate Expert AI）与三款前沿大语言模型（GPT-5.2、Gemini 3.1 Pro和Claude Opus 4.6）进行了比较。结果显示，前沿LLM在医学知识测试、临床一致性评估和真实临床查询基准中均优于专用工具。临床AI工具的表现与谷歌搜索AI概览相当。研究强调，在AI工具进入临床前需进行独立的真实世界评估。

来源Hacker News AI作者: doener

一项发表在《自然·医学》上的研究对专用临床人工智能（AI）工具与通用大语言模型（LLM）进行了全面对比。研究评估了OpenEvidence和UpToDate Expert AI这两款基于LLM构建的临床AI工具，并与GPT-5.2、Gemini 3.1 Pro和Claude Opus 4.6三款前沿LLM进行了较量。

评估分为三个阶段：首先，使用500道MedQA医学知识题测试模型的知识水平；其次，通过500项HealthBench项目衡量模型与临床医生的一致性；最后，利用真实临床查询（RCQ）基准，该基准包含100个来自医生在真实临床环境中向通用语言模型提问的去标识化查询。12名美国临床医生对模型输出进行了随机盲审，产生了1800条模型与问题的标注。

结果显示，前沿LLM在所有三项评估中均优于专用临床AI工具。而临床AI工具在RCQ上的表现与自动启用的谷歌搜索AI概览相当。这些发现强调了在AI工具进入临床环境之前，需要进行独立的真实世界评估，以确保其有效性和安全性。