2026-05-12站内改写

新研究發現：AI健康回答近半有誤，儘管聽起來令人信服

一項發表在《BMJ Open》上的新研究測試了五種主流AI聊天機器人（ChatGPT、Gemini、Grok、Meta AI和DeepSeek）在50個健康問題上的表現，發現近20%的回答高度有問題，一半的回答有問題，30%存在一定問題。Grok表現最差，開放性問題風險尤其高。研究強調用户不應視AI為權威醫療來源，需驗證信息。

文章情報

工程師進階

要點

研究測試了ChatGPT、Gemini、Grok、Meta AI和DeepSeek五個聊天機器人，各回答50個健康問題。
近20%的回答被專家評為高度有問題，一半被評為有問題，僅30%部分有問題。
開放性問題中32%被評為高度有問題，遠高於封閉式問題的7%。
沒有聊天機器人能提供完全準確的參考文獻列表，參考文獻完整性中位數僅40%。

為甚麼重要

這條新聞值得關注，因為研究測試了ChatGPT、Gemini、Grok、Meta AI和DeepSeek五個聊天機器人，各回答50個健康問題。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

一項由德國圖賓根大學研究人員領導的研究表明，人們在使用人工智能聊天機器人獲取健康建議時需保持警惕，因為即使是聽起來最可信的回答也可能包含錯誤。該研究發表在《BMJ Open》期刊上，對五個流行AI聊天機器人進行了系統性壓力測試。

研究人員選擇了ChatGPT、Gemini、Grok、Meta AI和DeepSeek，向每個機器人提出了50個涵蓋癌症、疫苗、幹細胞、營養和運動表現的健康與醫療問題。兩位獨立專家根據內容準確性和可驗證性對每個回答進行評級。結果令人擔憂：只有少數回答完全準確，近20%的回答被視為高度有問題（包含錯誤主張或無支持的陳述），一半的回答被認為有問題，而30%的回答存在部分問題。沒有一個機器人能始終提供準確的參考文獻，在250個問題中，僅有2個問題被機器人完全拒絕回答。

各機器人表現相似但存在差異。Grok表現最差，58%的回答被標記為有問題；其次是ChatGPT（52%）和Meta AI（50%）。話題方面，機器人在癌症和疫苗相關問題上表現較好（儘管仍有約四分之一的回答有問題），而在營養和運動表現方面表現最差，因為這些領域的信息往往矛盾且缺乏嚴謹證據。

開放性問題成為重災區：32%的開放性問題回答被評為高度有問題，而封閉式問題僅7%。這很重要，因為現實中的健康諮詢大多為開放式提問，例如“哪些補充劑對整體健康最有益？”這種問題容易引發流暢但可能有害的回答。

參考文獻問題同樣嚴重。當研究人員要求每個機器人提供十條科學參考文獻時，中位數完整性僅為40%。沒有一個機器人在25次嘗試中給出完全準確的列表，錯誤包括作者名有誤、鏈接失效甚至完全捏造的論文。這尤其危險，因為外行讀者看到格式規範的引文列表時很難懷疑其內容。

研究還引用了其他近期發現。例如，2026年2月《自然醫學》的一項研究顯示，雖然聊天機器人本身準確率接近95%，但用户實際使用時正確率不足35%。《美國醫學會雜誌網絡開放版》的另一項研究表明，在僅提供基本信息（如年齡、性別和症狀）時，21個AI模型超過80%的時間未能提出正確診斷；而加入檢查結果和實驗室數據後，準確率超過90%。《自然通訊醫學》上的研究則發現，聊天機器人容易重複甚至詳細闡述被植入提示中的虛構醫學術語。

研究人員強調，這些發現並不意味着聊天機器人無用。它們可以總結複雜話題、幫助準備問診問題，或作為研究起點。但用户應始終核實健康主張，將參考文獻視為待檢查的建議而非事實，並留意回答是否過於自信而缺乏免責聲明。