2026-05-12站内改写

新研究发现：AI健康回答近半有误，尽管听起来令人信服

一项发表在《BMJ Open》上的新研究测试了五种主流AI聊天机器人（ChatGPT、Gemini、Grok、Meta AI和DeepSeek）在50个健康问题上的表现，发现近20%的回答高度有问题，一半的回答有问题，30%存在一定问题。Grok表现最差，开放性问题风险尤其高。研究强调用户不应视AI为权威医疗来源，需验证信息。

文章情报

工程师进阶

要点

研究测试了ChatGPT、Gemini、Grok、Meta AI和DeepSeek五个聊天机器人，各回答50个健康问题。
近20%的回答被专家评为高度有问题，一半被评为有问题，仅30%部分有问题。
开放性问题中32%被评为高度有问题，远高于封闭式问题的7%。
没有聊天机器人能提供完全准确的参考文献列表，参考文献完整性中位数仅40%。

为什么重要

这条新闻值得关注，因为研究测试了ChatGPT、Gemini、Grok、Meta AI和DeepSeek五个聊天机器人，各回答50个健康问题。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

一项由德国图宾根大学研究人员领导的研究表明，人们在使用人工智能聊天机器人获取健康建议时需保持警惕，因为即使是听起来最可信的回答也可能包含错误。该研究发表在《BMJ Open》期刊上，对五个流行AI聊天机器人进行了系统性压力测试。

研究人员选择了ChatGPT、Gemini、Grok、Meta AI和DeepSeek，向每个机器人提出了50个涵盖癌症、疫苗、干细胞、营养和运动表现的健康与医疗问题。两位独立专家根据内容准确性和可验证性对每个回答进行评级。结果令人担忧：只有少数回答完全准确，近20%的回答被视为高度有问题（包含错误主张或无支持的陈述），一半的回答被认为有问题，而30%的回答存在部分问题。没有一个机器人能始终提供准确的参考文献，在250个问题中，仅有2个问题被机器人完全拒绝回答。

各机器人表现相似但存在差异。Grok表现最差，58%的回答被标记为有问题；其次是ChatGPT（52%）和Meta AI（50%）。话题方面，机器人在癌症和疫苗相关问题上表现较好（尽管仍有约四分之一的回答有问题），而在营养和运动表现方面表现最差，因为这些领域的信息往往矛盾且缺乏严谨证据。

开放性问题成为重灾区：32%的开放性问题回答被评为高度有问题，而封闭式问题仅7%。这很重要，因为现实中的健康咨询大多为开放式提问，例如“哪些补充剂对整体健康最有益？”这种问题容易引发流畅但可能有害的回答。

参考文献问题同样严重。当研究人员要求每个机器人提供十条科学参考文献时，中位数完整性仅为40%。没有一个机器人在25次尝试中给出完全准确的列表，错误包括作者名有误、链接失效甚至完全捏造的论文。这尤其危险，因为外行读者看到格式规范的引文列表时很难怀疑其内容。

研究还引用了其他近期发现。例如，2026年2月《自然医学》的一项研究显示，虽然聊天机器人本身准确率接近95%，但用户实际使用时正确率不足35%。《美国医学会杂志网络开放版》的另一项研究表明，在仅提供基本信息（如年龄、性别和症状）时，21个AI模型超过80%的时间未能提出正确诊断；而加入检查结果和实验室数据后，准确率超过90%。《自然通讯医学》上的研究则发现，聊天机器人容易重复甚至详细阐述被植入提示中的虚构医学术语。

研究人员强调，这些发现并不意味着聊天机器人无用。它们可以总结复杂话题、帮助准备问诊问题，或作为研究起点。但用户应始终核实健康主张，将参考文献视为待检查的建议而非事实，并留意回答是否过于自信而缺乏免责声明。