新研究發現:AI健康回答近半有誤,儘管聽起來令人信服
一項發表在《BMJ Open》上的新研究測試了五種主流AI聊天機器人(ChatGPT、Gemini、Grok、Meta AI和DeepSeek)在50個健康問題上的表現,發現近20%的回答高度有問題,一半的回答有問題,30%存在一定問題。Grok表現最差,開放性問題風險尤其高。研究強調用户不應視AI為權威醫療來源,需驗證信息。
文章情報
要點
- 研究測試了ChatGPT、Gemini、Grok、Meta AI和DeepSeek五個聊天機器人,各回答50個健康問題。
- 近20%的回答被專家評為高度有問題,一半被評為有問題,僅30%部分有問題。
- 開放性問題中32%被評為高度有問題,遠高於封閉式問題的7%。
- 沒有聊天機器人能提供完全準確的參考文獻列表,參考文獻完整性中位數僅40%。
為甚麼重要
這條新聞值得關注,因為研究測試了ChatGPT、Gemini、Grok、Meta AI和DeepSeek五個聊天機器人,各回答50個健康問題。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
一項由德國圖賓根大學研究人員領導的研究表明,人們在使用人工智能聊天機器人獲取健康建議時需保持警惕,因為即使是聽起來最可信的回答也可能包含錯誤。該研究發表在《BMJ Open》期刊上,對五個流行AI聊天機器人進行了系統性壓力測試。
研究人員選擇了ChatGPT、Gemini、Grok、Meta AI和DeepSeek,向每個機器人提出了50個涵蓋癌症、疫苗、幹細胞、營養和運動表現的健康與醫療問題。兩位獨立專家根據內容準確性和可驗證性對每個回答進行評級。結果令人擔憂:只有少數回答完全準確,近20%的回答被視為高度有問題(包含錯誤主張或無支持的陳述),一半的回答被認為有問題,而30%的回答存在部分問題。沒有一個機器人能始終提供準確的參考文獻,在250個問題中,僅有2個問題被機器人完全拒絕回答。
各機器人表現相似但存在差異。Grok表現最差,58%的回答被標記為有問題;其次是ChatGPT(52%)和Meta AI(50%)。話題方面,機器人在癌症和疫苗相關問題上表現較好(儘管仍有約四分之一的回答有問題),而在營養和運動表現方面表現最差,因為這些領域的信息往往矛盾且缺乏嚴謹證據。
開放性問題成為重災區:32%的開放性問題回答被評為高度有問題,而封閉式問題僅7%。這很重要,因為現實中的健康諮詢大多為開放式提問,例如“哪些補充劑對整體健康最有益?”這種問題容易引發流暢但可能有害的回答。
參考文獻問題同樣嚴重。當研究人員要求每個機器人提供十條科學參考文獻時,中位數完整性僅為40%。沒有一個機器人在25次嘗試中給出完全準確的列表,錯誤包括作者名有誤、鏈接失效甚至完全捏造的論文。這尤其危險,因為外行讀者看到格式規範的引文列表時很難懷疑其內容。
研究還引用了其他近期發現。例如,2026年2月《自然醫學》的一項研究顯示,雖然聊天機器人本身準確率接近95%,但用户實際使用時正確率不足35%。《美國醫學會雜誌網絡開放版》的另一項研究表明,在僅提供基本信息(如年齡、性別和症狀)時,21個AI模型超過80%的時間未能提出正確診斷;而加入檢查結果和實驗室數據後,準確率超過90%。《自然通訊醫學》上的研究則發現,聊天機器人容易重複甚至詳細闡述被植入提示中的虛構醫學術語。
研究人員強調,這些發現並不意味着聊天機器人無用。它們可以總結複雜話題、幫助準備問診問題,或作為研究起點。但用户應始終核實健康主張,將參考文獻視為待檢查的建議而非事實,並留意回答是否過於自信而缺乏免責聲明。