AI News HubLIVE
站内改写1 分鐘閱讀

通用大語言模型勝過專用臨床AI

一項新研究對兩款專用臨床AI工具(OpenEvidence和UpToDate Expert AI)與三款前沿大語言模型(GPT-5.2、Gemini 3.1 Pro和Claude Opus 4.6)進行了比較。結果顯示,前沿LLM在醫學知識測試、臨床一致性評估和真實臨床查詢基準中均優於專用工具。臨床AI工具的表現與谷歌搜尋AI概覽相當。研究強調,在AI工具進入臨床前需進行獨立的真實世界評估。

來源Hacker News AI作者: doener

一項發表在《自然·醫學》上的研究對專用臨床人工智慧(AI)工具與通用大語言模型(LLM)進行了全面對比。研究評估了OpenEvidence和UpToDate Expert AI這兩款基於LLM構建的臨床AI工具,並與GPT-5.2、Gemini 3.1 Pro和Claude Opus 4.6三款前沿LLM進行了較量。

評估分為三個階段:首先,使用500道MedQA醫學知識題測試模型的知識水平;其次,透過500項HealthBench專案衡量模型與臨床醫生的一致性;最後,利用真實臨床查詢(RCQ)基準,該基準包含100個來自醫生在真實臨床環境中向通用語言模型提問的去標識化查詢。12名美國臨床醫生對模型輸出進行了隨機盲審,產生了1800條模型與問題的標註。

結果顯示,前沿LLM在所有三項評估中均優於專用臨床AI工具。而臨床AI工具在RCQ上的表現與自動啟用的谷歌搜尋AI概覽相當。這些發現強調了在AI工具進入臨床環境之前,需要進行獨立的真實世界評估,以確保其有效性和安全性。