2025-10-29 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

OpenAI gpt-oss-safeguard 安全分類模型

Ollama 與 OpenAI 和 ROOST 合作，推出基於 Apache 2.0 許可的 gpt-oss-safeguard 推理模型，用於安全分類任務。模型提供 20B 和 120B 兩種引數規模，支援自定義安全策略、可解釋推理過程以及可配置的推理努力，能夠靈活應用於內容過濾、標註等場景。

來源Ollama Blog

Ollama 於 2025 年 10 月 29 日宣佈與 OpenAI 及 ROOST（Robust Open Online Safety Tools）合作，正式推出 gpt-oss-safeguard 推理模型。該模型專為安全分類任務設計，能夠幫助開發者和安全團隊高效處理 LLM 輸入輸出過濾、線上內容標註以及離線標註等信任與安全用例。

gpt-oss-safeguard 提供兩種引數規模：20B 和 120B，均採用寬鬆的 Apache 2.0 許可證，允許自由修改、定製和商業部署，無需擔心版許可權制或專利風險。使用者可透過 Ollama 平臺快速啟動模型，只需在終端中執行 ollama run gpt-oss-safeguard:20b 或 ollama run gpt-oss-safeguard:120b 即可。

模型的核心亮點包括：基於安全性訓練的推理能力，能夠理解並應用使用者自定義的書面策略，從而泛化到不同產品和場景；提供完整的推理過程（Chain-of-Thought），便於除錯和建立信任，但注意原始 CoT 僅面向開發者和安全從業者；支援低、中、高三種推理努力配置，使用者可根據延遲需求靈活調整。

在效能方面，OpenAI 使用內部和外部評估集對模型進行了測試。內部評估要求模型同時處理多條策略，並完全匹配黃金標準標籤。此外，模型在 OpenAI 2022 年論文釋出的稽核資料集以及公開基準 ToxicChat 上均取得了良好表現。ROOST 的技術長 Vinay Rao 表示：“gpt-oss-safeguard 是首個採用‘自帶策略和危害定義’設計的開源推理模型。組織可以自由研究、修改和使用這些關鍵安全技術，並持續創新。在測試中，模型擅長理解不同策略、解釋其推理過程，並在應用策略時展現出細微的判斷力，這對構建者和安全團隊非常有價值。”

ROOST 是一個非營利組織，成立於 2025 年，由多家領先科技公司、慈善機構和學術機構共同組建，致力於為各類數字組織提供高質量、開源的安全工具。更多資訊可參考 OpenAI 官方部落格、開發者指南以及 ROOST 的 GitHub 倉庫。