AI News HubLIVE
站內改寫1 分鐘閱讀

離譜又危險:安大略省審計發現醫生使用的AI筆記工具頻繁出現基本事實錯誤

安大略省審計長辦公室對20個獲批的AI醫療筆記系統進行評估,發現其中60%的系統在患者筆記中混淆了處方藥物,12個系統插入了錯誤的藥物資訊,9個系統編造了未在醫患討論中出現的內容。然而,評估標準中準確性僅佔4%的權重,而供應商在安省的業務存在佔30%。

加拿大安大略省審計長辦公室近日釋出的一份報告顯示,政府批准的AI醫療筆記系統存在嚴重的準確性問題。該報告評估了20個獲批供應商的系統,這些系統旨在幫助醫生自動生成患者筆記。評估使用了模擬的醫患對話錄音,並由醫療專業人員對比原始錄音與AI生成的筆記。結果發現,12個系統(佔比60%)在筆記中插入了錯誤的藥物資訊,9個系統(45%)編造了未討論的治療建議或患者狀況,例如報告發現腫塊或患者焦慮,而這些內容從未在對話中出現。此外,17個系統遺漏了關於患者心理健康問題的關鍵細節。

報告特別指出了評估標準的不合理之處:在總評分中,供應商在安省是否有業務存在佔30%權重,而醫療筆記的準確性僅佔4%。偏見控制、威脅風險評估和隱私保護各佔2%,SOC 2 Type 2合規性佔4%。這意味著關鍵的安全和準確性指標只佔很小部分,可能導致選擇表現不佳的供應商。

儘管參與該計劃的醫生超過5000名,且未報告直接患者傷害,但審計報告強烈建議改進評估流程。安大略省衛生部尚未回應置評請求,但安大略省醫生協會(OntarioMD)建議醫生手動核對AI筆記,然而目前系統中並無強制確認功能。此事件引發了對AI在關鍵醫療領域可靠性的廣泛擔憂。

值得注意的是,此前消費者導向的AI在醫療資訊方面表現不佳,大型語言模型在約80%的測試案例中未能提供適當的鑑別診斷。但這次評估的是面向醫生的專業工具,如此糟糕的表現需要合理解釋。報告指出,評估權重設定存在嚴重偏差,可能導致選用了產生不準確或有偏見醫療記錄的供應商,甚至可能缺乏對敏感個人健康資訊的充分保護。審計結論強調,必須重新審視評估標準,確保AI工具在醫療場景中的可靠性和安全性。