AI News HubLIVE
站內改寫2 分鐘閱讀

預訓練資料過濾為開源權重AI構建防篡改安全保障

EleutherAI釋出《深度無知》論文,透過過濾預訓練資料中的生物風險相關知識,使模型在保持通用效能的同時,對微調攻擊具有抵抗力。實驗表明,過濾後的6.9B引數模型在WMDP-Bio基準上表現接近隨機,且即使經過大量生物風險論文微調,效能仍顯著低於基線。但過濾不阻止上下文學習,模型仍可透過提示獲取危險資訊,需結合其他防禦措施。

EleutherAI 今日釋出了一篇題為《深度無知:過濾預訓練資料為開源權重大型語言模型構建防篡改安全保障》的研究論文,提出了一種透過過濾預訓練資料來增強模型安全性的新方法。與傳統的依賴拒絕訓練和輸入過濾器等事後干預手段不同,這種方法旨在從一開始就防止模型獲得危險知識,從而提供更穩健的安全保障。

研究團隊專注於預防生物風險知識,使用 WMDP-Bio 基準進行測試。WMDP-Bio 是一個由約1,200道多項選擇題組成的基準,涵蓋生物風險的前提知識。他們開發了一個可擴充套件的多階段過濾管道,包括一個包含約6,000個術語的阻止列表和一個基於 ModernBERT-Large 的分類器。該管道能夠以極低的計算成本處理超過4億份文件,僅拒絕約10%的資料,同時總FLOPS增加不到1%。在保持相同模型架構和訓練配置的條件下,團隊訓練了多個6.9B引數的語言模型,以探究資料過濾對效能的因果影響。

實驗結果顯示,資料過濾能夠將模型在 WMDP-Bio 上的表現降至接近隨機水平,同時在 MMLU、PIQA 等通用基準上幾乎沒有下降,甚至略有提升。例如,最有效的設定(弱過濾:僅對預訓練資料使用單階段過濾,對退火資料使用多階段過濾)將WMDP得分降至隨機水平,且MMLU僅輕微下降。更嚴格的強過濾則進一步降低WMDP,但導致MMLU小幅衰退。這表明過濾是一種有針對性的干預措施,不會以犧牲通用能力為代價。

更重要的是,過濾後的模型對微調攻擊具有顯著的抵抗力。研究團隊使用300M令牌的專業標註生物風險論文對過濾模型進行微調,這些論文正是WMDP試題的來源。結果顯示,儘管所有模型的WMDP效能都有所提升,但過濾後的模型得分仍明顯低於基線模型。相比之下,應用電路中斷(circuit breaking)等傳統方法的模型在遭受輕微篡改後,效能迅速恢復至基線水平,顯示出其脆弱性。即使使用維基文本進行良性微調,基線模型的安全措施也會失效,而過濾模型則不受影響。這證明了過濾在應對低資源攻擊者時的有效性。

然而,研究也發現過濾無法阻止模型透過上下文學習獲取危險資訊。當在提示中提供相關摘要時,過濾模型的表現接近基線模型。這意味著過濾應與其他干預措施結合,構建深度防禦體系。但該特性在封閉部署場景中可能有用:模型提供商可以允許可信使用者訪問雙重用途知識資料庫,而對不可信使用者限制訪問,從而在保障安全的同時促進良善應用。

論文還討論了過濾的侷限性,例如對毒性內容的過濾效果不如生物風險,並提出了未來研究方向,包括擴大過濾範圍、開發更高階的過濾器以及建立防篡改基準。EleutherAI 鼓勵社群對他們的模型進行壓力測試,並呼籲更多學術和非營利機構參與預訓練研究。該研究是與英國AI安全研究所和牛津大學合作完成的,並得到了 CoreWeave、Prime Intellect 等機構的計算支援。