Nemotron 3.5 内容安全:面向全球企业 AI 的可定制多模态安全模型
NVIDIA 发布 Nemotron 3.5 Content Safety,这是一个统一的、支持多模态输入、多语言覆盖、自定义企业策略执行和可审计推理的内容安全模型。该模型基于 Google Gemma 3 4B IT 构建,通过 LoRA 适配器进行微调,支持 12 种语言的显式训练和约 140 种语言的零样本泛化。它引入了自定义策略执行(通过自然语言策略规范)和推理跟踪(THINK 模式)功能,可提供可审计的逐步推理。该模型在多项多语言和多模态安全基准测试中平均准确率约为 85%,同时保持了紧凑的 4B 参数大小和低延迟特性。NVIDIA 还发布了配套的安全数据集,包含多模态、多语言的安全推理跟踪数据。
NVIDIA 发布了 Nemotron 3.5 Content Safety,这标志着其内容安全堆栈的重大演进。该模型将多模态输入、多语言覆盖、自定义企业策略执行和可审计推理统一到一个推理调用中,为全球企业 AI 部署提供了强大的安全保障。
Nemotron 3.5 基于 Google Gemma 3 4B IT 模型构建,拥有 128K 上下文窗口,并通过 LoRA 适配器进行微调,以植入目标安全分类行为。该模型支持三种输出模式:低延迟二元判定、带类别的二元判定,以及 THINK 模式(包含逐步推理跟踪和判定)。
在语言覆盖方面,Nemotron 3.5 显式训练了 12 种语言(包括英语、法语、西班牙语、德语、中文、日语、韩语、阿拉伯语、印地语、俄语、葡萄牙语和意大利语),并借助 Gemma 3 基座模型实现了对约 140 种语言的零样本泛化。这意味着在训练数据稀缺的市场(如东南亚语言、斯堪的纳维亚语言和资源较少的非洲语言)中,部署无需单独微调即可受益于多语言迁移。
自定义策略执行是 Nemotron 3.5 最显著的架构改进。生产环境中的部署很少使用单一的通用安全分类法。Nemotron 3.5 接受与输入一起的自定义策略规范,模型在做出判定时会根据该策略进行推理,而非完全依赖内置分类法。这扩展了先前在 Nemotron Content Safety Reasoning 4B 中引入的工作,将其应用到完整的多模态、多语言设置中。
THINK 模式(推理跟踪)为每个安全判定提供可审计的推理过程。当启用时,模型在输出最终的安全/不安全标签之前会输出逐步推理。推理跟踪不仅有助于合规性和审计日志记录,还支持人工审查和策略迭代。为了控制延迟,Nemotron 3.5 通过两步过程生成简洁的推理链:首先使用大型模型(如 Qwen 397B)生成链式思维推理跟踪,然后使用另一个大型模型(如 Qwen 80B)将其压缩至不超过三个句子。
训练数据方面,Nemotron 3.5 使用了多语言文本安全数据、人工标注的多模态数据(99% 为真实照片,而非合成生成)、安全多模态数据、推理跟踪数据、主题遵循数据以及约 10% 的合成数据。NVIDIA 还发布了 Nemotron 3.5 Content Safety Dataset,这是多模态、多语言且包含安全推理跟踪的数据集,对于开源安全模型领域具有重要意义。
在基准测试中,Nemotron 3.5 在多项多语言和多模态安全基准测试中平均准确率约为 85%,包括 VLGuard、MM-SafetyBench、PolyGuard、RTP-LX、Aya Redteaming、XSafety 等。在多语言 Aegis 测试中,它实现了 96.5% 的平均有害内容分类准确率;在 RTP-LX 测试中为 88.8%,综合平均为 92.7%。
Nemotron 3.5 保持了紧凑的 4B 参数大小,可在 8GB+ VRAM GPU 上实时部署,适合全球企业 AI 系统的生产流水线。