OpenAI gpt-oss-safeguard 安全分類模型
Ollama 與 OpenAI 和 ROOST 合作,推出基於 Apache 2.0 許可的 gpt-oss-safeguard 推理模型,用於安全分類任務。模型提供 20B 和 120B 兩種參數規模,支持自定義安全策略、可解釋推理過程以及可配置的推理努力,能夠靈活應用於內容過濾、標註等場景。
Ollama 於 2025 年 10 月 29 日宣佈與 OpenAI 及 ROOST(Robust Open Online Safety Tools)合作,正式推出 gpt-oss-safeguard 推理模型。該模型專為安全分類任務設計,能夠幫助開發者和安全團隊高效處理 LLM 輸入輸出過濾、在線內容標註以及離線標註等信任與安全用例。
gpt-oss-safeguard 提供兩種參數規模:20B 和 120B,均採用寬鬆的 Apache 2.0 許可證,允許自由修改、定製和商業部署,無需擔心版權限制或專利風險。用户可通過 Ollama 平台快速啓動模型,只需在終端中運行 ollama run gpt-oss-safeguard:20b 或 ollama run gpt-oss-safeguard:120b 即可。
模型的核心亮點包括:基於安全性訓練的推理能力,能夠理解並應用用户自定義的書面策略,從而泛化到不同產品和場景;提供完整的推理過程(Chain-of-Thought),便於調試和建立信任,但注意原始 CoT 僅面向開發者和安全從業者;支持低、中、高三種推理努力配置,用户可根據延遲需求靈活調整。
在性能方面,OpenAI 使用內部和外部評估集對模型進行了測試。內部評估要求模型同時處理多條策略,並完全匹配黃金標準標籤。此外,模型在 OpenAI 2022 年論文發佈的審核數據集以及公開基準 ToxicChat 上均取得了良好表現。ROOST 的首席技術官 Vinay Rao 表示:“gpt-oss-safeguard 是首個採用‘自帶策略和危害定義’設計的開源推理模型。組織可以自由研究、修改和使用這些關鍵安全技術,並持續創新。在測試中,模型擅長理解不同策略、解釋其推理過程,並在應用策略時展現出細微的判斷力,這對構建者和安全團隊非常有價值。”
ROOST 是一個非營利組織,成立於 2025 年,由多家領先科技公司、慈善機構和學術機構共同組建,致力於為各類數字組織提供高質量、開源的安全工具。更多信息可參考 OpenAI 官方博客、開發者指南以及 ROOST 的 GitHub 倉庫。