2026-05-13 22:00 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

AI聊天機器人能像醫生一樣推理嗎？

一項發表在《科學》雜誌上的新研究表明，OpenAI的大型語言模型在臨床推理任務上表現優於醫生，但也引發了關於可靠性、評估標準和對醫療實踐影響的討論。

來源IEEE Spectrum AI作者: Greg Uyeno

計算機在醫學領域最早的目標之一是輔助臨床推理——即做出診斷和制定治療計劃所需的決策步驟。多年來，研究人員構建了許多臨床決策支援系統，這些系統通常是專門構建的，包含關於症狀、檢查閾值和藥物相互作用的精心編寫的規則。隨著人工智慧能力的發展，臨床推理成為一個自然而然的用武之地。

現在，一項於4月30日發表在《科學》雜誌上的研究表明，來自OpenAI的大型語言模型在使用真實急診記錄的多項臨床推理任務中表現優於醫生。

這些新發現出現的同時，也湧現出大量關於聊天機器人醫學資訊的令人擔憂的證據：一些研究展示了令人印象深刻的診斷效能，而另一些則記錄了捏造的引用、有缺陷的建議以及因研究者評分方式不同而變化的結果。儘管存在這些不確定性，針對醫療專業人員的產品已經進入市場。例如，今年OpenAI推出了ChatGPT for Clinicians和ChatGPT for Healthcare。

OpenAI的o1-preview是一個通用模型，此後已被更新模型取代，但其效能足夠令人鼓舞，以至於作者建議在現實案例中進一步測試LLM，讓醫生在特定檢查點尋求診斷方面的第二意見。

紐約伊坎醫學院研究醫學影像AI的Mickael Tordjman同意，現在正是專注於實際應用研究的好時機。“我們需要在前瞻性臨床試驗中獲得更多證據，”他說，並指出更新的LLM模型或專門為醫療用途訓練的模型可能表現更好。

儘管《科學》論文的作者在新聞釋出會上對AI的醫療潛力表示樂觀，但他們也強調了LLM的重要侷限性，並對他們的研究可能被誤解表示擔憂。“我不認為我們的發現意味著AI可以取代醫生，”合著者、哈佛醫學院研究AI的Arjun Manrai說。

“我認為這真的很酷，別誤會，”合著者、波士頓貝斯以色列女執事醫療中心的醫學教育者Adam Rodman說，“但我對這些結果可能被如何使用感到有些不安。”

聊天機器人醫療問題上的可靠性如何？其他研究聊天機器人醫療建議的研究人員最近發現了懷疑其可信度的理由。例如，在一項研究中，五個流行聊天機器人對開放式健康問題的回答幾乎有一半是有缺陷的。聊天機器人捏造資訊和引用，並且無論準確性如何都自信地呈現答案。

“這些模型每天都在被使用。存在一定的風險，沒有被量化或減輕，”Arya Rao說，她在哈佛不同小組研究醫學實踐中的AI，與《科學》論文的作者不同。

大部分研究集中在聊天機器人回答日常使用者健康問題——即一個人在決定就醫前可能會問的那種問題。使用LLM作為醫生的臨床決策支援工具則完全是一項不同的任務。醫生應該更清楚哪些資訊有助於LLM做出準確診斷或制定治療計劃，以及具備識別明顯錯誤的背景知識。

然而，檢測幻覺對醫生來說可能仍然具有挑戰性。“無論模型是對是錯，它們都同樣令人信服，”Rodman說，“我們需要找到錯誤率低的工作流程。”

即使關注面向醫生的臨床推理任務的研究，根據研究者如何定義成功也可能得出截然不同的結論。在4月13日發表在《JAMA Network》上的一篇論文中，Rao和同事測試了21個LLM在類似《科學》論文中的臨床推理任務。與《科學》論文一樣，許多模型在最終診斷上表現良好，包括o1系列中的聊天機器人。然而，Rao對LLM在鑑別診斷問題上的評分很低，因為她使用了不同的評估系統。

當醫生進行鑑別診斷時，他們會列出患者症狀的所有可能原因。LLM可能正確列出七個可能最終診斷中的六個。這可以合理地評分為86%，或者按照Rao的系統，評為不可接受的失敗。

目前還沒有公認的評分標準。“這仍在進行中，”Tordjman說，“沒有完美的方法來評估LLM在臨床推理中的表現。”

在現實世界中測試醫學AI 在《科學》研究中，研究人員用多組醫學案例研究測試了OpenAI模型，這些案例難度堪比開放式醫學考試題目。對聊天機器人的指令有時很長，充滿了可能是無關或關鍵線索的細節。

“我們額外邁出了一步，表明這種表現在現實世界中也同樣有效，”Rodman說。研究的一部分使用了76次實際急診就診的資料。研究人員要求LLM和醫生在幾個護理階段提供診斷：到達急診室時、醫生評估後以及轉移到醫院其他科室後。雖然隨著資訊增加，計算機和人類的準確性都提高了，但LLM始終略勝一籌。例如，在最後一個檢查點，它82%的時間提供了“完全或非常接近的診斷”，而兩名醫生的準確率分別為79%和70%。

我們熟知的LLM出現還不到十年，且該領域正在快速演變。旗艦LLM的更新版本比醫學研究和學術文獻的典型更新速度更快，關於監管和責任的許多問題仍未解答。由於許多患者和醫生已經在諮詢這些機器，研究人員告訴IEEE Spectrum，迫切需要了解它們的好處、風險以及最佳使用方式。

雖然將AI表現與人類醫生進行比較對研究很重要，但Manrai表示，更重要的問題是醫生將如何實際使用這項技術。“我們必須迅速從‘AI vs.人類’轉向人類如何與這項技術互動，”Manrai說。

儘管存在許多未解決的問題，哈佛的Rao表示技術發展太快，醫學界無法忽視。“我會說謹慎很重要，評估很重要，但創新可能更重要，”她說，“我們不想掃興——我們認為負責任創新才是正道。”