2025-08-13 04:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

预训练数据过滤为开源权重AI构建防篡改安全保障

EleutherAI发布《深度无知》论文，通过过滤预训练数据中的生物风险相关知识，使模型在保持通用性能的同时，对微调攻击具有抵抗力。实验表明，过滤后的6.9B参数模型在WMDP-Bio基准上表现接近随机，且即使经过大量生物风险论文微调，性能仍显著低于基线。但过滤不阻止上下文学习，模型仍可通过提示获取危险信息，需结合其他防御措施。

来源EleutherAI Blog

文章情报

工程师进阶

要点

过滤预训练数据可将生物风险知识回复降至随机水平，且不影响MMLU等通用基准性能。
过滤后的模型对微调攻击具有抵抗力：即使使用300M令牌的专业生物风险论文微调，其WMDP-Bio分数仍低于基线。
过滤不阻止上下文学习：当在提示中提供相关摘要时，过滤模型的表现接近基线模型，表明需结合其他干预措施。
该研究提供了可扩展的多阶段过滤管道（字符串阻止列表+ML分类器），仅拒绝约10%的训练数据，计算开销极低。

为什么重要

这条新闻值得关注，因为过滤预训练数据可将生物风险知识回复降至随机水平，且不影响MMLU等通用基准性能。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

EleutherAI 今日发布了一篇题为《深度无知：过滤预训练数据为开源权重大型语言模型构建防篡改安全保障》的研究论文，提出了一种通过过滤预训练数据来增强模型安全性的新方法。与传统的依赖拒绝训练和输入过滤器等事后干预手段不同，这种方法旨在从一开始就防止模型获得危险知识，从而提供更稳健的安全保障。

研究团队专注于预防生物风险知识，使用 WMDP-Bio 基准进行测试。WMDP-Bio 是一个由约1,200道多项选择题组成的基准，涵盖生物风险的前提知识。他们开发了一个可扩展的多阶段过滤管道，包括一个包含约6,000个术语的阻止列表和一个基于 ModernBERT-Large 的分类器。该管道能够以极低的计算成本处理超过4亿份文档，仅拒绝约10%的数据，同时总FLOPS增加不到1%。在保持相同模型架构和训练配置的条件下，团队训练了多个6.9B参数的语言模型，以探究数据过滤对性能的因果影响。

实验结果显示，数据过滤能够将模型在 WMDP-Bio 上的表现降至接近随机水平，同时在 MMLU、PIQA 等通用基准上几乎没有下降，甚至略有提升。例如，最有效的设置（弱过滤：仅对预训练数据使用单阶段过滤，对退火数据使用多阶段过滤）将WMDP得分降至随机水平，且MMLU仅轻微下降。更严格的强过滤则进一步降低WMDP，但导致MMLU小幅衰退。这表明过滤是一种有针对性的干预措施，不会以牺牲通用能力为代价。

更重要的是，过滤后的模型对微调攻击具有显著的抵抗力。研究团队使用300M令牌的专业标注生物风险论文对过滤模型进行微调，这些论文正是WMDP试题的来源。结果显示，尽管所有模型的WMDP性能都有所提升，但过滤后的模型得分仍明显低于基线模型。相比之下，应用电路中断（circuit breaking）等传统方法的模型在遭受轻微篡改后，性能迅速恢复至基线水平，显示出其脆弱性。即使使用维基文本进行良性微调，基线模型的安全措施也会失效，而过滤模型则不受影响。这证明了过滤在应对低资源攻击者时的有效性。

然而，研究也发现过滤无法阻止模型通过上下文学习获取危险信息。当在提示中提供相关摘要时，过滤模型的表现接近基线模型。这意味着过滤应与其他干预措施结合，构建深度防御体系。但该特性在封闭部署场景中可能有用：模型提供商可以允许可信用户访问双重用途知识数据库，而对不可信用户限制访问，从而在保障安全的同时促进良善应用。

论文还讨论了过滤的局限性，例如对毒性内容的过滤效果不如生物风险，并提出了未来研究方向，包括扩大过滤范围、开发更高级的过滤器以及建立防篡改基准。EleutherAI 鼓励社区对他们的模型进行压力测试，并呼吁更多学术和非营利机构参与预训练研究。该研究是与英国AI安全研究所和牛津大学合作完成的，并得到了 CoreWeave、Prime Intellect 等机构的计算支持。