2026-06-05 02:57 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Nemotron 3.5 内容安全：面向全球企业 AI 的可定制多模态安全模型

NVIDIA 发布 Nemotron 3.5 Content Safety，这是一个统一的、支持多模态输入、多语言覆盖、自定义企业策略执行和可审计推理的内容安全模型。该模型基于 Google Gemma 3 4B IT 构建，通过 LoRA 适配器进行微调，支持 12 种语言的显式训练和约 140 种语言的零样本泛化。它引入了自定义策略执行（通过自然语言策略规范）和推理跟踪（THINK 模式）功能，可提供可审计的逐步推理。该模型在多项多语言和多模态安全基准测试中平均准确率约为 85%，同时保持了紧凑的 4B 参数大小和低延迟特性。NVIDIA 还发布了配套的安全数据集，包含多模态、多语言的安全推理跟踪数据。

来源Hugging Face Blog

NVIDIA 发布了 Nemotron 3.5 Content Safety，这标志着其内容安全堆栈的重大演进。该模型将多模态输入、多语言覆盖、自定义企业策略执行和可审计推理统一到一个推理调用中，为全球企业 AI 部署提供了强大的安全保障。

Nemotron 3.5 基于 Google Gemma 3 4B IT 模型构建，拥有 128K 上下文窗口，并通过 LoRA 适配器进行微调，以植入目标安全分类行为。该模型支持三种输出模式：低延迟二元判定、带类别的二元判定，以及 THINK 模式（包含逐步推理跟踪和判定）。

在语言覆盖方面，Nemotron 3.5 显式训练了 12 种语言（包括英语、法语、西班牙语、德语、中文、日语、韩语、阿拉伯语、印地语、俄语、葡萄牙语和意大利语），并借助 Gemma 3 基座模型实现了对约 140 种语言的零样本泛化。这意味着在训练数据稀缺的市场（如东南亚语言、斯堪的纳维亚语言和资源较少的非洲语言）中，部署无需单独微调即可受益于多语言迁移。

自定义策略执行是 Nemotron 3.5 最显著的架构改进。生产环境中的部署很少使用单一的通用安全分类法。Nemotron 3.5 接受与输入一起的自定义策略规范，模型在做出判定时会根据该策略进行推理，而非完全依赖内置分类法。这扩展了先前在 Nemotron Content Safety Reasoning 4B 中引入的工作，将其应用到完整的多模态、多语言设置中。

THINK 模式（推理跟踪）为每个安全判定提供可审计的推理过程。当启用时，模型在输出最终的安全/不安全标签之前会输出逐步推理。推理跟踪不仅有助于合规性和审计日志记录，还支持人工审查和策略迭代。为了控制延迟，Nemotron 3.5 通过两步过程生成简洁的推理链：首先使用大型模型（如 Qwen 397B）生成链式思维推理跟踪，然后使用另一个大型模型（如 Qwen 80B）将其压缩至不超过三个句子。

训练数据方面，Nemotron 3.5 使用了多语言文本安全数据、人工标注的多模态数据（99% 为真实照片，而非合成生成）、安全多模态数据、推理跟踪数据、主题遵循数据以及约 10% 的合成数据。NVIDIA 还发布了 Nemotron 3.5 Content Safety Dataset，这是多模态、多语言且包含安全推理跟踪的数据集，对于开源安全模型领域具有重要意义。

在基准测试中，Nemotron 3.5 在多项多语言和多模态安全基准测试中平均准确率约为 85%，包括 VLGuard、MM-SafetyBench、PolyGuard、RTP-LX、Aya Redteaming、XSafety 等。在多语言 Aegis 测试中，它实现了 96.5% 的平均有害内容分类准确率；在 RTP-LX 测试中为 88.8%，综合平均为 92.7%。

Nemotron 3.5 保持了紧凑的 4B 参数大小，可在 8GB+ VRAM GPU 上实时部署，适合全球企业 AI 系统的生产流水线。