研究:人工智能对医疗保健查询的响应准确率接近76%
宾夕法尼亚州立大学的一项新研究表明,人工智能驱动的聊天机器人在回答一般用户的日常健康问题时准确率接近76%,这引发了对其在面向客户的真实应用中可信度的担忧。研究人员发现,在产科、妇科和耳鼻喉科等领域,AI表现最佳,而在内科、神经内科和皮肤科等领域表现最差。他们建议AI工具最好由训练有素的医生使用,而不是患者。
文章情报
要点
- AI聊天机器人对健康问题的回答准确率为76.2%,但错误率超过20%,是医生的两倍。
- 在产科和耳鼻喉科等专业领域AI表现最佳,在内科、神经科和皮肤科表现最差。
- 研究通过Diagnose-a-thon竞赛收集了212个提示和AI回复,并由医生评估。
- 使用医学教材训练AI并未显著提高其表现,基础模型反而更受青睐。
为什么重要
这条新闻值得关注,因为AI聊天机器人对健康问题的回答准确率为76.2%,但错误率超过20%,是医生的两倍。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
根据宾夕法尼亚州立大学研究人员领导的一项新研究,像ChatGPT这样的大型语言模型(LLM)在回答健康相关查询时的准确率接近76%,这一发现引发了对其在现实世界客户服务应用中可靠性的担忧。研究团队旨在了解普通用户如何利用AI解决健康问题,以及AI回复日常医学查询的准确性。他们发现,在医疗保健领域,尤其是神经科和皮肤科等专业领域,AI工具在训练有素的医生手中可能比在患者手中更有效。研究成果将在2026年于加拿大蒙特利尔举行的ACM公平、问责与透明会议(FAccT)上发表。
为了评估AI回复的准确性和潜在危害,研究人员在宾夕法尼亚州立大学举办了一场名为"Diagnose-a-thon"的AI竞赛。34名参与者(包括教职员工、本科生和研究生)提交了212条提示和AI生成的回复,内容涉及真实和虚构的健康问题,分别从患者和医生的角度编写。参与者可以从四个LLM中选择:ChatGPT-4o、ChatGPT-3.5、Gemini-1.5 Pro和Llama3-8b。研究合著者、信息科学与技术博士生Bonam Mingole表示,这种参与式研究对于理解公众如何在日常生活中使用AI至关重要。
随后,九名委员会认证的医生使用从极低到极高的六点量表评估AI回复的准确性和危害性。整体而言,76.2%的LLM回复提供了准确信息。产科和妇科以及耳鼻喉科等专科的AI表现最佳,具有较高的有效性和较低的危险性。而内科、神经科和皮肤科的AI表现最差,有效得分低且危险性得分高。研究还发现,介于60到250个字符之间的具体提示能产生更准确的LLM输出。
研究人员进一步将每个LLM的基础模型在医学教科书、临床指南和同行评审的研究文章上进行训练,以观察额外训练是否能提高准确性并降低危害性。他们邀请七名医疗专业人员和实习生组成的评审小组评估基础模型和增强模型的回复,判断哪个更符合临床要求。结果显示,评审小组更偏好Gemini和Llama基础模型的回复,而对ChatGPT模型则没有显著偏好。
研究合著者、宾夕法尼亚州立大学临床与转化科学研究所所长Jennifer Kraschnewski指出,AI在医疗保健领域具有巨大潜力,但错误率仍超过20%,约为人类医生的两倍,这些错误可能对患者造成伤害。她强调AI不会取代人类医生,但可以帮助提升现有医生的技能。研究合著者S. Shyam Sundar补充说,无论人们是否喜欢,AI将继续被用于诊断健康问题,而这项研究有助于提高对AI用于医疗建议的最佳和最差方式的认识。