2026-05-13 22:00 UTC+8站内改写3 分钟阅读更新: 2026-06-27 08:25 UTC+8

AI聊天机器人能像医生一样推理吗？

一项发表在《科学》杂志上的新研究表明，OpenAI的大型语言模型在临床推理任务上表现优于医生，但也引发了关于可靠性、评估标准和对医疗实践影响的讨论。

来源IEEE Spectrum AI作者: Greg Uyeno

计算机在医学领域最早的目标之一是辅助临床推理——即做出诊断和制定治疗计划所需的决策步骤。多年来，研究人员构建了许多临床决策支持系统，这些系统通常是专门构建的，包含关于症状、检查阈值和药物相互作用的精心编写的规则。随着人工智能能力的发展，临床推理成为一个自然而然的用武之地。

现在，一项于4月30日发表在《科学》杂志上的研究表明，来自OpenAI的大型语言模型在使用真实急诊记录的多项临床推理任务中表现优于医生。

这些新发现出现的同时，也涌现出大量关于聊天机器人医学信息的令人担忧的证据：一些研究展示了令人印象深刻的诊断性能，而另一些则记录了捏造的引用、有缺陷的建议以及因研究者评分方式不同而变化的结果。尽管存在这些不确定性，针对医疗专业人员的产品已经进入市场。例如，今年OpenAI推出了ChatGPT for Clinicians和ChatGPT for Healthcare。

OpenAI的o1-preview是一个通用模型，此后已被更新模型取代，但其性能足够令人鼓舞，以至于作者建议在现实案例中进一步测试LLM，让医生在特定检查点寻求诊断方面的第二意见。

纽约伊坎医学院研究医学影像AI的Mickael Tordjman同意，现在正是专注于实际应用研究的好时机。“我们需要在前瞻性临床试验中获得更多证据，”他说，并指出更新的LLM模型或专门为医疗用途训练的模型可能表现更好。

尽管《科学》论文的作者在新闻发布会上对AI的医疗潜力表示乐观，但他们也强调了LLM的重要局限性，并对他们的研究可能被误解表示担忧。“我不认为我们的发现意味着AI可以取代医生，”合著者、哈佛医学院研究AI的Arjun Manrai说。

“我认为这真的很酷，别误会，”合著者、波士顿贝斯以色列女执事医疗中心的医学教育者Adam Rodman说，“但我对这些结果可能被如何使用感到有些不安。”

聊天机器人医疗问题上的可靠性如何？其他研究聊天机器人医疗建议的研究人员最近发现了怀疑其可信度的理由。例如，在一项研究中，五个流行聊天机器人对开放式健康问题的回答几乎有一半是有缺陷的。聊天机器人捏造信息和引用，并且无论准确性如何都自信地呈现答案。

“这些模型每天都在被使用。存在一定的风险，没有被量化或减轻，”Arya Rao说，她在哈佛不同小组研究医学实践中的AI，与《科学》论文的作者不同。

大部分研究集中在聊天机器人回答日常用户健康问题——即一个人在决定就医前可能会问的那种问题。使用LLM作为医生的临床决策支持工具则完全是一项不同的任务。医生应该更清楚哪些信息有助于LLM做出准确诊断或制定治疗计划，以及具备识别明显错误的背景知识。

然而，检测幻觉对医生来说可能仍然具有挑战性。“无论模型是对是错，它们都同样令人信服，”Rodman说，“我们需要找到错误率低的工作流程。”

即使关注面向医生的临床推理任务的研究，根据研究者如何定义成功也可能得出截然不同的结论。在4月13日发表在《JAMA Network》上的一篇论文中，Rao和同事测试了21个LLM在类似《科学》论文中的临床推理任务。与《科学》论文一样，许多模型在最终诊断上表现良好，包括o1系列中的聊天机器人。然而，Rao对LLM在鉴别诊断问题上的评分很低，因为她使用了不同的评估系统。

当医生进行鉴别诊断时，他们会列出患者症状的所有可能原因。LLM可能正确列出七个可能最终诊断中的六个。这可以合理地评分为86%，或者按照Rao的系统，评为不可接受的失败。

目前还没有公认的评分标准。“这仍在进行中，”Tordjman说，“没有完美的方法来评估LLM在临床推理中的表现。”

在现实世界中测试医学AI 在《科学》研究中，研究人员用多组医学案例研究测试了OpenAI模型，这些案例难度堪比开放式医学考试题目。对聊天机器人的指令有时很长，充满了可能是无关或关键线索的细节。

“我们额外迈出了一步，表明这种表现在现实世界中也同样有效，”Rodman说。研究的一部分使用了76次实际急诊就诊的数据。研究人员要求LLM和医生在几个护理阶段提供诊断：到达急诊室时、医生评估后以及转移到医院其他科室后。虽然随着信息增加，计算机和人类的准确性都提高了，但LLM始终略胜一筹。例如，在最后一个检查点，它82%的时间提供了“完全或非常接近的诊断”，而两名医生的准确率分别为79%和70%。

我们熟知的LLM出现还不到十年，且该领域正在快速演变。旗舰LLM的更新版本比医学研究和学术文献的典型更新速度更快，关于监管和责任的许多问题仍未解答。由于许多患者和医生已经在咨询这些机器，研究人员告诉IEEE Spectrum，迫切需要了解它们的好处、风险以及最佳使用方式。

虽然将AI表现与人类医生进行比较对研究很重要，但Manrai表示，更重要的问题是医生将如何实际使用这项技术。“我们必须迅速从‘AI vs.人类’转向人类如何与这项技术互动，”Manrai说。

尽管存在许多未解决的问题，哈佛的Rao表示技术发展太快，医学界无法忽视。“我会说谨慎很重要，评估很重要，但创新可能更重要，”她说，“我们不想扫兴——我们认为负责任创新才是正道。”