2026-05-27 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

大型語言模型中的預訓練數據暴露：成員推理、數據污染及安全影響綜述

本綜述首次統一了預訓練數據暴露（PDE）框架下的成員推理和數據污染研究，形式化定義了不同暴露水平，回顧了攻擊與防禦方法，綜合了實證發現，並指出了開放挑戰和未來方向。

來源arXiv Computational Linguistics作者: Ziyi Tong, Feifei Sun, Le Minh Nguyen

大型語言模型（LLM）已成為自然語言處理領域的主導範式，推動着研究和工業應用的快速發展。隨着模型參數規模和預訓練數據集的不斷擴大，預訓練數據暴露（Pretraining Data Exposure, PDE）問題日益受到學界和業界的關注。PDE的核心任務是確定特定數據是否出現在LLM的預訓練語料中，這一判斷對於評估模型性能的完整性和保護訓練數據的隱私至關重要。該領域涉及兩個相互關聯但長期被孤立研究的關鍵方面：數據污染和成員推理。數據污染是指測試數據意外出現在訓練集中，導致評估指標虛高；而成員推理則試圖判斷某個樣本是否被用於模型訓練，從而可能泄露用户隱私。

最近，一篇由Ziyi Tong等人撰寫、已被NLDB 2025會議接收的綜述論文（arXiv:2605.26133）首次將這兩個方面統一在PDE框架下進行了系統性回顧。論文作者來自多個研究機構，他們首先形式化定義了PDE的多個暴露水平，從簡單的二元成員檢測到更復雜的部分泄露識別，建立了一個統一的分類體系。在此基礎上，論文全面回顧了現有的攻擊方法，例如基於困惑度的成員推理攻擊、基於模型輸出的黑盒攻擊等，並分析了相應的防禦策略，包括數據去重、差分隱私訓練、正則化技術等。

論文進一步綜合了多項實證研究的發現，揭示了當前主流LLM在預訓練數據暴露方面的脆弱性。例如，許多模型在標準的成員推理攻擊下表現出較高的命中率，表明訓練數據中的敏感信息可能被無意記憶並泄露。同時，數據污染現象廣泛存在，尤其是在熱門基準測試中，模型的真實能力被高估。這些脆弱性對模型評估的可信度、用户隱私保護以及模型安全部署構成了嚴重挑戰。

論文還詳細討論了PDE對實際應用的影響。在模型評估方面，數據污染可能導致排行榜名次失真，誤導研究方向和資源投入。在隱私保護方面，成員推理攻擊可能從模型輸出中挖掘出訓練數據中的個人信息，違反隱私法規。此外，PDE還與模型安全性緊密相關，例如對抗性攻擊可以利用暴露信息進行更有效的攻擊。

最後，論文指出了當前研究的開放問題和未來方向，包括：如何設計可擴展的防禦方法以適應大規模模型？如何量化不同暴露水平的實際風險？如何平衡隱私保護與模型性能？以及如何建立統一的評估基準來公平比較不同方法。這篇綜述為理解LLM的預訓練數據暴露問題提供了全面的視角，併為後續研究奠定了堅實基礎。隨着LLM在醫療、金融、法律等敏感領域的廣泛應用，解決PDE問題將變得越來越迫切。