2026-05-29 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

開源安全護欄模型基準測試：一項全面評估

一項針對14個開源安全護欄模型的全面評估顯示，Qwen Guard（4B引數）以83.97%的召回率位居榜首，而更大的模型如Llama Guard（12B）和GPT-OSS Safeguard（20B）表現保守，漏掉多達75%的不安全內容。研究還發現，模型大小與安全檢測效能無關，通用型護欄模型優於專用模型。

來源arXiv Computational Linguistics作者: Reetu Raj Harsh, Bhaskarjit Sarmah, Stefano Pasquali

隨著大型語言模型（LLM）在安全關鍵應用中的廣泛部署，穩健的內容稽核變得至關重要。2026年4月10日，Reetu Raj Harsh等人在arXiv上提交了一篇論文（arXiv:2605.28830），對14個開源安全護欄模型進行了全面評估。研究人員構建了一個包含79,331個樣本的基準測試集，涵蓋NIST AI風險框架中的8個安全類別：暴力、仇恨言論、騷擾、色情內容、自殺/自殘、褻瀆、威脅和健康虛假資訊。該資料集整合了HarmBench、StrongREJECT、RealToxicityPrompts和BeaverTails四個公開資料集，並經過篩選僅保留安全相關內容。

研究表明，在安全應用中，召回率比精確率更為關鍵，因為漏檢有害內容的風險遠高於誤報。令人驚訝的是，引數量僅為4B的Qwen Guard以83.97%的召回率位居榜首，而引數量更大的模型如Llama Guard（12B）和GPT-OSS Safeguard（20B）表現保守，漏檢了高達75%的不安全內容。作者證明，模型大小與安全檢測效能之間並無關聯，通用型護欄模型優於專用模型。這些發現為生產環境中的安全護欄模型選型提供了實用指導，建議實踐者優先考慮召回率而非模型大小，並選擇通用型模型而非針對特定類別訓練的模型。

這項評估為AI安全社群提供了重要見解，挑戰了“更大模型總是更好”的假設。透過強調相對較小的Qwen Guard的有效性，該論文鼓勵基於實證效能而非規模進行更細緻的模型選擇。這項工作有助於LLM的安全部署，並推動AI系統的可信賴性。