2026-05-27 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

大型语言模型中的预训练数据暴露：成员推理、数据污染及安全影响综述

本综述首次统一了预训练数据暴露（PDE）框架下的成员推理和数据污染研究，形式化定义了不同暴露水平，回顾了攻击与防御方法，综合了实证发现，并指出了开放挑战和未来方向。

来源arXiv Computational Linguistics作者: Ziyi Tong, Feifei Sun, Le Minh Nguyen

大型语言模型（LLM）已成为自然语言处理领域的主导范式，推动着研究和工业应用的快速发展。随着模型参数规模和预训练数据集的不断扩大，预训练数据暴露（Pretraining Data Exposure, PDE）问题日益受到学界和业界的关注。PDE的核心任务是确定特定数据是否出现在LLM的预训练语料中，这一判断对于评估模型性能的完整性和保护训练数据的隐私至关重要。该领域涉及两个相互关联但长期被孤立研究的关键方面：数据污染和成员推理。数据污染是指测试数据意外出现在训练集中，导致评估指标虚高；而成员推理则试图判断某个样本是否被用于模型训练，从而可能泄露用户隐私。

最近，一篇由Ziyi Tong等人撰写、已被NLDB 2025会议接收的综述论文（arXiv:2605.26133）首次将这两个方面统一在PDE框架下进行了系统性回顾。论文作者来自多个研究机构，他们首先形式化定义了PDE的多个暴露水平，从简单的二元成员检测到更复杂的部分泄露识别，建立了一个统一的分类体系。在此基础上，论文全面回顾了现有的攻击方法，例如基于困惑度的成员推理攻击、基于模型输出的黑盒攻击等，并分析了相应的防御策略，包括数据去重、差分隐私训练、正则化技术等。

论文进一步综合了多项实证研究的发现，揭示了当前主流LLM在预训练数据暴露方面的脆弱性。例如，许多模型在标准的成员推理攻击下表现出较高的命中率，表明训练数据中的敏感信息可能被无意记忆并泄露。同时，数据污染现象广泛存在，尤其是在热门基准测试中，模型的真实能力被高估。这些脆弱性对模型评估的可信度、用户隐私保护以及模型安全部署构成了严重挑战。

论文还详细讨论了PDE对实际应用的影响。在模型评估方面，数据污染可能导致排行榜名次失真，误导研究方向和资源投入。在隐私保护方面，成员推理攻击可能从模型输出中挖掘出训练数据中的个人信息，违反隐私法规。此外，PDE还与模型安全性紧密相关，例如对抗性攻击可以利用暴露信息进行更有效的攻击。

最后，论文指出了当前研究的开放问题和未来方向，包括：如何设计可扩展的防御方法以适应大规模模型？如何量化不同暴露水平的实际风险？如何平衡隐私保护与模型性能？以及如何建立统一的评估基准来公平比较不同方法。这篇综述为理解LLM的预训练数据暴露问题提供了全面的视角，并为后续研究奠定了坚实基础。随着LLM在医疗、金融、法律等敏感领域的广泛应用，解决PDE问题将变得越来越迫切。