2025-08-13 04:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

預訓練資料過濾為開源權重AI構建防篡改安全保障

EleutherAI釋出《深度無知》論文，透過過濾預訓練資料中的生物風險相關知識，使模型在保持通用效能的同時，對微調攻擊具有抵抗力。實驗表明，過濾後的6.9B引數模型在WMDP-Bio基準上表現接近隨機，且即使經過大量生物風險論文微調，效能仍顯著低於基線。但過濾不阻止上下文學習，模型仍可透過提示獲取危險資訊，需結合其他防禦措施。

來源EleutherAI Blog

文章情報

工程師進階

要點

過濾預訓練資料可將生物風險知識回覆降至隨機水平，且不影響MMLU等通用基準效能。
過濾後的模型對微調攻擊具有抵抗力：即使使用300M令牌的專業生物風險論文微調，其WMDP-Bio分數仍低於基線。
過濾不阻止上下文學習：當在提示中提供相關摘要時，過濾模型的表現接近基線模型，表明需結合其他干預措施。
該研究提供了可擴充套件的多階段過濾管道（字串阻止列表+ML分類器），僅拒絕約10%的訓練資料，計算開銷極低。

為什麼重要

這條新聞值得關注，因為過濾預訓練資料可將生物風險知識回覆降至隨機水平，且不影響MMLU等通用基準效能。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

EleutherAI 今日釋出了一篇題為《深度無知：過濾預訓練資料為開源權重大型語言模型構建防篡改安全保障》的研究論文，提出了一種透過過濾預訓練資料來增強模型安全性的新方法。與傳統的依賴拒絕訓練和輸入過濾器等事後干預手段不同，這種方法旨在從一開始就防止模型獲得危險知識，從而提供更穩健的安全保障。

研究團隊專注於預防生物風險知識，使用 WMDP-Bio 基準進行測試。WMDP-Bio 是一個由約1,200道多項選擇題組成的基準，涵蓋生物風險的前提知識。他們開發了一個可擴充套件的多階段過濾管道，包括一個包含約6,000個術語的阻止列表和一個基於 ModernBERT-Large 的分類器。該管道能夠以極低的計算成本處理超過4億份文件，僅拒絕約10%的資料，同時總FLOPS增加不到1%。在保持相同模型架構和訓練配置的條件下，團隊訓練了多個6.9B引數的語言模型，以探究資料過濾對效能的因果影響。

實驗結果顯示，資料過濾能夠將模型在 WMDP-Bio 上的表現降至接近隨機水平，同時在 MMLU、PIQA 等通用基準上幾乎沒有下降，甚至略有提升。例如，最有效的設定（弱過濾：僅對預訓練資料使用單階段過濾，對退火資料使用多階段過濾）將WMDP得分降至隨機水平，且MMLU僅輕微下降。更嚴格的強過濾則進一步降低WMDP，但導致MMLU小幅衰退。這表明過濾是一種有針對性的干預措施，不會以犧牲通用能力為代價。

更重要的是，過濾後的模型對微調攻擊具有顯著的抵抗力。研究團隊使用300M令牌的專業標註生物風險論文對過濾模型進行微調，這些論文正是WMDP試題的來源。結果顯示，儘管所有模型的WMDP效能都有所提升，但過濾後的模型得分仍明顯低於基線模型。相比之下，應用電路中斷（circuit breaking）等傳統方法的模型在遭受輕微篡改後，效能迅速恢復至基線水平，顯示出其脆弱性。即使使用維基文本進行良性微調，基線模型的安全措施也會失效，而過濾模型則不受影響。這證明了過濾在應對低資源攻擊者時的有效性。

然而，研究也發現過濾無法阻止模型透過上下文學習獲取危險資訊。當在提示中提供相關摘要時，過濾模型的表現接近基線模型。這意味著過濾應與其他干預措施結合，構建深度防禦體系。但該特性在封閉部署場景中可能有用：模型提供商可以允許可信使用者訪問雙重用途知識資料庫，而對不可信使用者限制訪問，從而在保障安全的同時促進良善應用。

論文還討論了過濾的侷限性，例如對毒性內容的過濾效果不如生物風險，並提出了未來研究方向，包括擴大過濾範圍、開發更高階的過濾器以及建立防篡改基準。EleutherAI 鼓勵社群對他們的模型進行壓力測試，並呼籲更多學術和非營利機構參與預訓練研究。該研究是與英國AI安全研究所和牛津大學合作完成的，並得到了 CoreWeave、Prime Intellect 等機構的計算支援。