离谱又危险:安大略省审计发现医生使用的AI笔记工具频繁出现基本事实错误
安大略省审计长办公室对20个获批的AI医疗笔记系统进行评估,发现其中60%的系统在患者笔记中混淆了处方药物,12个系统插入了错误的药物信息,9个系统编造了未在医患讨论中出现的内容。然而,评估标准中准确性仅占4%的权重,而供应商在安省的业务存在占30%。
加拿大安大略省审计长办公室近日发布的一份报告显示,政府批准的AI医疗笔记系统存在严重的准确性问题。该报告评估了20个获批供应商的系统,这些系统旨在帮助医生自动生成患者笔记。评估使用了模拟的医患对话录音,并由医疗专业人员对比原始录音与AI生成的笔记。结果发现,12个系统(占比60%)在笔记中插入了错误的药物信息,9个系统(45%)编造了未讨论的治疗建议或患者状况,例如报告发现肿块或患者焦虑,而这些内容从未在对话中出现。此外,17个系统遗漏了关于患者心理健康问题的关键细节。
报告特别指出了评估标准的不合理之处:在总评分中,供应商在安省是否有业务存在占30%权重,而医疗笔记的准确性仅占4%。偏见控制、威胁风险评估和隐私保护各占2%,SOC 2 Type 2合规性占4%。这意味着关键的安全和准确性指标只占很小部分,可能导致选择表现不佳的供应商。
尽管参与该计划的医生超过5000名,且未报告直接患者伤害,但审计报告强烈建议改进评估流程。安大略省卫生部尚未回应置评请求,但安大略省医生协会(OntarioMD)建议医生手动核对AI笔记,然而目前系统中并无强制确认功能。此事件引发了对AI在关键医疗领域可靠性的广泛担忧。
值得注意的是,此前消费者导向的AI在医疗信息方面表现不佳,大型语言模型在约80%的测试案例中未能提供适当的鉴别诊断。但这次评估的是面向医生的专业工具,如此糟糕的表现需要合理解释。报告指出,评估权重设置存在严重偏差,可能导致选用了产生不准确或有偏见医疗记录的供应商,甚至可能缺乏对敏感个人健康信息的充分保护。审计结论强调,必须重新审视评估标准,确保AI工具在医疗场景中的可靠性和安全性。