AI News HubLIVE
站內改寫2 分鐘閱讀

醫療診斷AI可被誘騙洩露訓練資料中的患者身份

德國研究人員發現,醫療AI模型容易受到成員推理攻擊,可能暴露患者資料,尤其來自代表性不足群體的患者。研究呼籲改進隱私標準和採用差分隱私技術。

來源Hacker News AI作者: Bender

根據《自然》雜誌發表的一項新研究,用於輔助醫療診斷的人工智慧模型存在一個嚴重隱私漏洞:它們可以被誘騙識別出哪些患者的資料被用於訓練。德國研究人員發現,判別式AI模型——這類模型根據訓練集對新輸入資料進行分類和預測——特別容易受到成員推理攻擊(MIA)。此類攻擊試圖確定特定資料點是否包含在模型的訓練集中。

這意味著,任何被用於訓練AI的患者資料都有可能被暴露,從而導致患者的病史和診斷細節洩露。研究人員分析了七個醫療AI資料集,包括影像、心電圖記錄和一般電子健康記錄,發現針對個體患者的攻擊可以達到“近乎完美的成功率”。這與當前模型安全評估的標準大相徑庭。

更糟糕的是,資料集中患者越具特異性,越容易被識別。種族、保險狀態、性別、醫學成像協議以及某些疾病狀態都可能使個體成為異常值,從而更容易被找出。研究首席作者、慕尼黑工業大學的Moritz Knolle表示:“一般來說,隨著模型訓練佇列變得更具特異性,MIA的隱私風險會變得更為嚴重。”他指出,暴露訓練資料成員身份可能揭示某人有潛伏的遺傳性疾病、憂鬱症,或曾就診於特定的專科診所。

攻擊者如何實施MIA?該攻擊依賴於醫療AI對訓練集中資料的預測更確定這一特性。攻擊者只需將獲得的患者資料輸入AI模型,檢查其置信度,即可判斷該患者是否在訓練集中。Knolle強調,攻擊者甚至不需要完整的資料,部分訪問即可成功。而且,攻擊者無需知道資料屬於誰——研究中使用的是匿名資料集,但目標資料本身可以對應特定患者。

Knolle希望這項研究能促使醫療AI界重視隱私風險,並採取緩解措施。研究者建議採用差分隱私框架,從數學上保證訓練資料的匿名性,並呼籲改變隱私審計標準,考慮個體層面的風險而非僅聚合風險。此外,透過更好地代表少數群體,也能降低隱私洩露的風險。

總之,醫療AI的隱私保護需要立即行動。Knolle指出:“有許多情況下的成功MIA僅構成輕微或可忽略的隱私侵犯,例如在訓練資料包含大量健康與患病個體時。但代表性確實至關重要。”