AI News HubLIVE
站内改写1 分钟阅读

OpenAI gpt-oss-safeguard 安全分类模型

Ollama 与 OpenAI 和 ROOST 合作,推出基于 Apache 2.0 许可的 gpt-oss-safeguard 推理模型,用于安全分类任务。模型提供 20B 和 120B 两种参数规模,支持自定义安全策略、可解释推理过程以及可配置的推理努力,能够灵活应用于内容过滤、标注等场景。

Ollama 于 2025 年 10 月 29 日宣布与 OpenAI 及 ROOST(Robust Open Online Safety Tools)合作,正式推出 gpt-oss-safeguard 推理模型。该模型专为安全分类任务设计,能够帮助开发者和安全团队高效处理 LLM 输入输出过滤、在线内容标注以及离线标注等信任与安全用例。

gpt-oss-safeguard 提供两种参数规模:20B 和 120B,均采用宽松的 Apache 2.0 许可证,允许自由修改、定制和商业部署,无需担心版权限制或专利风险。用户可通过 Ollama 平台快速启动模型,只需在终端中运行 ollama run gpt-oss-safeguard:20b 或 ollama run gpt-oss-safeguard:120b 即可。

模型的核心亮点包括:基于安全性训练的推理能力,能够理解并应用用户自定义的书面策略,从而泛化到不同产品和场景;提供完整的推理过程(Chain-of-Thought),便于调试和建立信任,但注意原始 CoT 仅面向开发者和安全从业者;支持低、中、高三种推理努力配置,用户可根据延迟需求灵活调整。

在性能方面,OpenAI 使用内部和外部评估集对模型进行了测试。内部评估要求模型同时处理多条策略,并完全匹配黄金标准标签。此外,模型在 OpenAI 2022 年论文发布的审核数据集以及公开基准 ToxicChat 上均取得了良好表现。ROOST 的首席技术官 Vinay Rao 表示:“gpt-oss-safeguard 是首个采用‘自带策略和危害定义’设计的开源推理模型。组织可以自由研究、修改和使用这些关键安全技术,并持续创新。在测试中,模型擅长理解不同策略、解释其推理过程,并在应用策略时展现出细微的判断力,这对构建者和安全团队非常有价值。”

ROOST 是一个非营利组织,成立于 2025 年,由多家领先科技公司、慈善机构和学术机构共同组建,致力于为各类数字组织提供高质量、开源的安全工具。更多信息可参考 OpenAI 官方博客、开发者指南以及 ROOST 的 GitHub 仓库。