研究:人工智能對醫療保健查詢的響應準確率接近76%
賓夕法尼亞州立大學的一項新研究表明,人工智能驅動的聊天機器人在回答一般用户的日常健康問題時準確率接近76%,這引發了對其在面向客户的真實應用中可信度的擔憂。研究人員發現,在產科、婦科和耳鼻喉科等領域,AI表現最佳,而在內科、神經內科和皮膚科等領域表現最差。他們建議AI工具最好由訓練有素的醫生使用,而不是患者。
文章情報
要點
- AI聊天機器人對健康問題的回答準確率為76.2%,但錯誤率超過20%,是醫生的兩倍。
- 在產科和耳鼻喉科等專業領域AI表現最佳,在內科、神經科和皮膚科表現最差。
- 研究通過Diagnose-a-thon競賽收集了212個提示和AI回覆,並由醫生評估。
- 使用醫學教材訓練AI並未顯著提高其表現,基礎模型反而更受青睞。
為甚麼重要
這條新聞值得關注,因為AI聊天機器人對健康問題的回答準確率為76.2%,但錯誤率超過20%,是醫生的兩倍。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
根據賓夕法尼亞州立大學研究人員領導的一項新研究,像ChatGPT這樣的大型語言模型(LLM)在回答健康相關查詢時的準確率接近76%,這一發現引發了對其在現實世界客户服務應用中可靠性的擔憂。研究團隊旨在瞭解普通用户如何利用AI解決健康問題,以及AI回覆日常醫學查詢的準確性。他們發現,在醫療保健領域,尤其是神經科和皮膚科等專業領域,AI工具在訓練有素的醫生手中可能比在患者手中更有效。研究成果將在2026年於加拿大蒙特利爾舉行的ACM公平、問責與透明會議(FAccT)上發表。
為了評估AI回覆的準確性和潛在危害,研究人員在賓夕法尼亞州立大學舉辦了一場名為"Diagnose-a-thon"的AI競賽。34名參與者(包括教職員工、本科生和研究生)提交了212條提示和AI生成的回覆,內容涉及真實和虛構的健康問題,分別從患者和醫生的角度編寫。參與者可以從四個LLM中選擇:ChatGPT-4o、ChatGPT-3.5、Gemini-1.5 Pro和Llama3-8b。研究合著者、信息科學與技術博士生Bonam Mingole表示,這種參與式研究對於理解公眾如何在日常生活中使用AI至關重要。
隨後,九名委員會認證的醫生使用從極低到極高的六點量表評估AI回覆的準確性和危害性。整體而言,76.2%的LLM回覆提供了準確信息。產科和婦科以及耳鼻喉科等專科的AI表現最佳,具有較高的有效性和較低的危險性。而內科、神經科和皮膚科的AI表現最差,有效得分低且危險性得分高。研究還發現,介於60到250個字符之間的具體提示能產生更準確的LLM輸出。
研究人員進一步將每個LLM的基礎模型在醫學教科書、臨牀指南和同行評審的研究文章上進行訓練,以觀察額外訓練是否能提高準確性並降低危害性。他們邀請七名醫療專業人員和實習生組成的評審小組評估基礎模型和增強模型的回覆,判斷哪個更符合臨牀要求。結果顯示,評審小組更偏好Gemini和Llama基礎模型的回覆,而對ChatGPT模型則沒有顯著偏好。
研究合著者、賓夕法尼亞州立大學臨牀與轉化科學研究所所長Jennifer Kraschnewski指出,AI在醫療保健領域具有巨大潛力,但錯誤率仍超過20%,約為人類醫生的兩倍,這些錯誤可能對患者造成傷害。她強調AI不會取代人類醫生,但可以幫助提升現有醫生的技能。研究合著者S. Shyam Sundar補充説,無論人們是否喜歡,AI將繼續被用於診斷健康問題,而這項研究有助於提高對AI用於醫療建議的最佳和最差方式的認識。