AI News HubLIVE
站內改寫1 分鐘閱讀

OpenAI gpt-oss-safeguard 安全分類模型

Ollama 與 OpenAI 和 ROOST 合作,推出基於 Apache 2.0 許可的 gpt-oss-safeguard 推理模型,用於安全分類任務。模型提供 20B 和 120B 兩種引數規模,支援自定義安全策略、可解釋推理過程以及可配置的推理努力,能夠靈活應用於內容過濾、標註等場景。

Ollama 於 2025 年 10 月 29 日宣佈與 OpenAI 及 ROOST(Robust Open Online Safety Tools)合作,正式推出 gpt-oss-safeguard 推理模型。該模型專為安全分類任務設計,能夠幫助開發者和安全團隊高效處理 LLM 輸入輸出過濾、線上內容標註以及離線標註等信任與安全用例。

gpt-oss-safeguard 提供兩種引數規模:20B 和 120B,均採用寬鬆的 Apache 2.0 許可證,允許自由修改、定製和商業部署,無需擔心版許可權制或專利風險。使用者可透過 Ollama 平臺快速啟動模型,只需在終端中執行 ollama run gpt-oss-safeguard:20b 或 ollama run gpt-oss-safeguard:120b 即可。

模型的核心亮點包括:基於安全性訓練的推理能力,能夠理解並應用使用者自定義的書面策略,從而泛化到不同產品和場景;提供完整的推理過程(Chain-of-Thought),便於除錯和建立信任,但注意原始 CoT 僅面向開發者和安全從業者;支援低、中、高三種推理努力配置,使用者可根據延遲需求靈活調整。

在效能方面,OpenAI 使用內部和外部評估集對模型進行了測試。內部評估要求模型同時處理多條策略,並完全匹配黃金標準標籤。此外,模型在 OpenAI 2022 年論文釋出的稽核資料集以及公開基準 ToxicChat 上均取得了良好表現。ROOST 的技術長 Vinay Rao 表示:“gpt-oss-safeguard 是首個採用‘自帶策略和危害定義’設計的開源推理模型。組織可以自由研究、修改和使用這些關鍵安全技術,並持續創新。在測試中,模型擅長理解不同策略、解釋其推理過程,並在應用策略時展現出細微的判斷力,這對構建者和安全團隊非常有價值。”

ROOST 是一個非營利組織,成立於 2025 年,由多家領先科技公司、慈善機構和學術機構共同組建,致力於為各類數字組織提供高質量、開源的安全工具。更多資訊可參考 OpenAI 官方部落格、開發者指南以及 ROOST 的 GitHub 倉庫。