2025-10-29 08:00 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

OpenAI gpt-oss-safeguard 安全分类模型

Ollama 与 OpenAI 和 ROOST 合作，推出基于 Apache 2.0 许可的 gpt-oss-safeguard 推理模型，用于安全分类任务。模型提供 20B 和 120B 两种参数规模，支持自定义安全策略、可解释推理过程以及可配置的推理努力，能够灵活应用于内容过滤、标注等场景。

来源Ollama Blog

Ollama 于 2025 年 10 月 29 日宣布与 OpenAI 及 ROOST（Robust Open Online Safety Tools）合作，正式推出 gpt-oss-safeguard 推理模型。该模型专为安全分类任务设计，能够帮助开发者和安全团队高效处理 LLM 输入输出过滤、在线内容标注以及离线标注等信任与安全用例。

gpt-oss-safeguard 提供两种参数规模：20B 和 120B，均采用宽松的 Apache 2.0 许可证，允许自由修改、定制和商业部署，无需担心版权限制或专利风险。用户可通过 Ollama 平台快速启动模型，只需在终端中运行 ollama run gpt-oss-safeguard:20b 或 ollama run gpt-oss-safeguard:120b 即可。

模型的核心亮点包括：基于安全性训练的推理能力，能够理解并应用用户自定义的书面策略，从而泛化到不同产品和场景；提供完整的推理过程（Chain-of-Thought），便于调试和建立信任，但注意原始 CoT 仅面向开发者和安全从业者；支持低、中、高三种推理努力配置，用户可根据延迟需求灵活调整。

在性能方面，OpenAI 使用内部和外部评估集对模型进行了测试。内部评估要求模型同时处理多条策略，并完全匹配黄金标准标签。此外，模型在 OpenAI 2022 年论文发布的审核数据集以及公开基准 ToxicChat 上均取得了良好表现。ROOST 的首席技术官 Vinay Rao 表示：“gpt-oss-safeguard 是首个采用‘自带策略和危害定义’设计的开源推理模型。组织可以自由研究、修改和使用这些关键安全技术，并持续创新。在测试中，模型擅长理解不同策略、解释其推理过程，并在应用策略时展现出细微的判断力，这对构建者和安全团队非常有价值。”

ROOST 是一个非营利组织，成立于 2025 年，由多家领先科技公司、慈善机构和学术机构共同组建，致力于为各类数字组织提供高质量、开源的安全工具。更多信息可参考 OpenAI 官方博客、开发者指南以及 ROOST 的 GitHub 仓库。