2026-05-15 04:50 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

离谱又危险：安大略省审计发现医生使用的AI笔记工具频繁出现基本事实错误

安大略省审计长办公室对20个获批的AI医疗笔记系统进行评估，发现其中60%的系统在患者笔记中混淆了处方药物，12个系统插入了错误的药物信息，9个系统编造了未在医患讨论中出现的内容。然而，评估标准中准确性仅占4%的权重，而供应商在安省的业务存在占30%。

来源The Register AI + ML

加拿大安大略省审计长办公室近日发布的一份报告显示，政府批准的AI医疗笔记系统存在严重的准确性问题。该报告评估了20个获批供应商的系统，这些系统旨在帮助医生自动生成患者笔记。评估使用了模拟的医患对话录音，并由医疗专业人员对比原始录音与AI生成的笔记。结果发现，12个系统（占比60%）在笔记中插入了错误的药物信息，9个系统（45%）编造了未讨论的治疗建议或患者状况，例如报告发现肿块或患者焦虑，而这些内容从未在对话中出现。此外，17个系统遗漏了关于患者心理健康问题的关键细节。

报告特别指出了评估标准的不合理之处：在总评分中，供应商在安省是否有业务存在占30%权重，而医疗笔记的准确性仅占4%。偏见控制、威胁风险评估和隐私保护各占2%，SOC 2 Type 2合规性占4%。这意味着关键的安全和准确性指标只占很小部分，可能导致选择表现不佳的供应商。

尽管参与该计划的医生超过5000名，且未报告直接患者伤害，但审计报告强烈建议改进评估流程。安大略省卫生部尚未回应置评请求，但安大略省医生协会（OntarioMD）建议医生手动核对AI笔记，然而目前系统中并无强制确认功能。此事件引发了对AI在关键医疗领域可靠性的广泛担忧。

值得注意的是，此前消费者导向的AI在医疗信息方面表现不佳，大型语言模型在约80%的测试案例中未能提供适当的鉴别诊断。但这次评估的是面向医生的专业工具，如此糟糕的表现需要合理解释。报告指出，评估权重设置存在严重偏差，可能导致选用了产生不准确或有偏见医疗记录的供应商，甚至可能缺乏对敏感个人健康信息的充分保护。审计结论强调，必须重新审视评估标准，确保AI工具在医疗场景中的可靠性和安全性。