AI News HubLIVE
站内改写

新研究发现:AI健康回答近半有误,尽管听起来令人信服

一项发表在《BMJ Open》上的新研究测试了五种主流AI聊天机器人(ChatGPT、Gemini、Grok、Meta AI和DeepSeek)在50个健康问题上的表现,发现近20%的回答高度有问题,一半的回答有问题,30%存在一定问题。Grok表现最差,开放性问题风险尤其高。研究强调用户不应视AI为权威医疗来源,需验证信息。

文章情报

工程师进阶

要点

  • 研究测试了ChatGPT、Gemini、Grok、Meta AI和DeepSeek五个聊天机器人,各回答50个健康问题。
  • 近20%的回答被专家评为高度有问题,一半被评为有问题,仅30%部分有问题。
  • 开放性问题中32%被评为高度有问题,远高于封闭式问题的7%。
  • 没有聊天机器人能提供完全准确的参考文献列表,参考文献完整性中位数仅40%。

为什么重要

这条新闻值得关注,因为研究测试了ChatGPT、Gemini、Grok、Meta AI和DeepSeek五个聊天机器人,各回答50个健康问题。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

一项由德国图宾根大学研究人员领导的研究表明,人们在使用人工智能聊天机器人获取健康建议时需保持警惕,因为即使是听起来最可信的回答也可能包含错误。该研究发表在《BMJ Open》期刊上,对五个流行AI聊天机器人进行了系统性压力测试。

研究人员选择了ChatGPT、Gemini、Grok、Meta AI和DeepSeek,向每个机器人提出了50个涵盖癌症、疫苗、干细胞、营养和运动表现的健康与医疗问题。两位独立专家根据内容准确性和可验证性对每个回答进行评级。结果令人担忧:只有少数回答完全准确,近20%的回答被视为高度有问题(包含错误主张或无支持的陈述),一半的回答被认为有问题,而30%的回答存在部分问题。没有一个机器人能始终提供准确的参考文献,在250个问题中,仅有2个问题被机器人完全拒绝回答。

各机器人表现相似但存在差异。Grok表现最差,58%的回答被标记为有问题;其次是ChatGPT(52%)和Meta AI(50%)。话题方面,机器人在癌症和疫苗相关问题上表现较好(尽管仍有约四分之一的回答有问题),而在营养和运动表现方面表现最差,因为这些领域的信息往往矛盾且缺乏严谨证据。

开放性问题成为重灾区:32%的开放性问题回答被评为高度有问题,而封闭式问题仅7%。这很重要,因为现实中的健康咨询大多为开放式提问,例如“哪些补充剂对整体健康最有益?”这种问题容易引发流畅但可能有害的回答。

参考文献问题同样严重。当研究人员要求每个机器人提供十条科学参考文献时,中位数完整性仅为40%。没有一个机器人在25次尝试中给出完全准确的列表,错误包括作者名有误、链接失效甚至完全捏造的论文。这尤其危险,因为外行读者看到格式规范的引文列表时很难怀疑其内容。

研究还引用了其他近期发现。例如,2026年2月《自然医学》的一项研究显示,虽然聊天机器人本身准确率接近95%,但用户实际使用时正确率不足35%。《美国医学会杂志网络开放版》的另一项研究表明,在仅提供基本信息(如年龄、性别和症状)时,21个AI模型超过80%的时间未能提出正确诊断;而加入检查结果和实验室数据后,准确率超过90%。《自然通讯医学》上的研究则发现,聊天机器人容易重复甚至详细阐述被植入提示中的虚构医学术语。

研究人员强调,这些发现并不意味着聊天机器人无用。它们可以总结复杂话题、帮助准备问诊问题,或作为研究起点。但用户应始终核实健康主张,将参考文献视为待检查的建议而非事实,并留意回答是否过于自信而缺乏免责声明。