AI News HubLIVE
站内改写2 分钟阅读

预训练数据过滤为开源权重AI构建防篡改安全保障

EleutherAI发布《深度无知》论文,通过过滤预训练数据中的生物风险相关知识,使模型在保持通用性能的同时,对微调攻击具有抵抗力。实验表明,过滤后的6.9B参数模型在WMDP-Bio基准上表现接近随机,且即使经过大量生物风险论文微调,性能仍显著低于基线。但过滤不阻止上下文学习,模型仍可通过提示获取危险信息,需结合其他防御措施。

EleutherAI 今日发布了一篇题为《深度无知:过滤预训练数据为开源权重大型语言模型构建防篡改安全保障》的研究论文,提出了一种通过过滤预训练数据来增强模型安全性的新方法。与传统的依赖拒绝训练和输入过滤器等事后干预手段不同,这种方法旨在从一开始就防止模型获得危险知识,从而提供更稳健的安全保障。

研究团队专注于预防生物风险知识,使用 WMDP-Bio 基准进行测试。WMDP-Bio 是一个由约1,200道多项选择题组成的基准,涵盖生物风险的前提知识。他们开发了一个可扩展的多阶段过滤管道,包括一个包含约6,000个术语的阻止列表和一个基于 ModernBERT-Large 的分类器。该管道能够以极低的计算成本处理超过4亿份文档,仅拒绝约10%的数据,同时总FLOPS增加不到1%。在保持相同模型架构和训练配置的条件下,团队训练了多个6.9B参数的语言模型,以探究数据过滤对性能的因果影响。

实验结果显示,数据过滤能够将模型在 WMDP-Bio 上的表现降至接近随机水平,同时在 MMLU、PIQA 等通用基准上几乎没有下降,甚至略有提升。例如,最有效的设置(弱过滤:仅对预训练数据使用单阶段过滤,对退火数据使用多阶段过滤)将WMDP得分降至随机水平,且MMLU仅轻微下降。更严格的强过滤则进一步降低WMDP,但导致MMLU小幅衰退。这表明过滤是一种有针对性的干预措施,不会以牺牲通用能力为代价。

更重要的是,过滤后的模型对微调攻击具有显著的抵抗力。研究团队使用300M令牌的专业标注生物风险论文对过滤模型进行微调,这些论文正是WMDP试题的来源。结果显示,尽管所有模型的WMDP性能都有所提升,但过滤后的模型得分仍明显低于基线模型。相比之下,应用电路中断(circuit breaking)等传统方法的模型在遭受轻微篡改后,性能迅速恢复至基线水平,显示出其脆弱性。即使使用维基文本进行良性微调,基线模型的安全措施也会失效,而过滤模型则不受影响。这证明了过滤在应对低资源攻击者时的有效性。

然而,研究也发现过滤无法阻止模型通过上下文学习获取危险信息。当在提示中提供相关摘要时,过滤模型的表现接近基线模型。这意味着过滤应与其他干预措施结合,构建深度防御体系。但该特性在封闭部署场景中可能有用:模型提供商可以允许可信用户访问双重用途知识数据库,而对不可信用户限制访问,从而在保障安全的同时促进良善应用。

论文还讨论了过滤的局限性,例如对毒性内容的过滤效果不如生物风险,并提出了未来研究方向,包括扩大过滤范围、开发更高级的过滤器以及建立防篡改基准。EleutherAI 鼓励社区对他们的模型进行压力测试,并呼吁更多学术和非营利机构参与预训练研究。该研究是与英国AI安全研究所和牛津大学合作完成的,并得到了 CoreWeave、Prime Intellect 等机构的计算支持。