2026-05-15 04:50 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

離譜又危險：安大略省審計發現醫生使用的AI筆記工具頻繁出現基本事實錯誤

安大略省審計長辦公室對20個獲批的AI醫療筆記系統進行評估，發現其中60%的系統在患者筆記中混淆了處方藥物，12個系統插入了錯誤的藥物資訊，9個系統編造了未在醫患討論中出現的內容。然而，評估標準中準確性僅佔4%的權重，而供應商在安省的業務存在佔30%。

來源The Register AI + ML

加拿大安大略省審計長辦公室近日釋出的一份報告顯示，政府批准的AI醫療筆記系統存在嚴重的準確性問題。該報告評估了20個獲批供應商的系統，這些系統旨在幫助醫生自動生成患者筆記。評估使用了模擬的醫患對話錄音，並由醫療專業人員對比原始錄音與AI生成的筆記。結果發現，12個系統（佔比60%）在筆記中插入了錯誤的藥物資訊，9個系統（45%）編造了未討論的治療建議或患者狀況，例如報告發現腫塊或患者焦慮，而這些內容從未在對話中出現。此外，17個系統遺漏了關於患者心理健康問題的關鍵細節。

報告特別指出了評估標準的不合理之處：在總評分中，供應商在安省是否有業務存在佔30%權重，而醫療筆記的準確性僅佔4%。偏見控制、威脅風險評估和隱私保護各佔2%，SOC 2 Type 2合規性佔4%。這意味著關鍵的安全和準確性指標只佔很小部分，可能導致選擇表現不佳的供應商。

儘管參與該計劃的醫生超過5000名，且未報告直接患者傷害，但審計報告強烈建議改進評估流程。安大略省衛生部尚未回應置評請求，但安大略省醫生協會（OntarioMD）建議醫生手動核對AI筆記，然而目前系統中並無強制確認功能。此事件引發了對AI在關鍵醫療領域可靠性的廣泛擔憂。

值得注意的是，此前消費者導向的AI在醫療資訊方面表現不佳，大型語言模型在約80%的測試案例中未能提供適當的鑑別診斷。但這次評估的是面向醫生的專業工具，如此糟糕的表現需要合理解釋。報告指出，評估權重設定存在嚴重偏差，可能導致選用了產生不準確或有偏見醫療記錄的供應商，甚至可能缺乏對敏感個人健康資訊的充分保護。審計結論強調，必須重新審視評估標準，確保AI工具在醫療場景中的可靠性和安全性。