2026-06-05 02:57 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Nemotron 3.5 內容安全：面向全球企業 AI 的可定製多模態安全模型

NVIDIA 發佈 Nemotron 3.5 Content Safety，這是一個統一的、支持多模態輸入、多語言覆蓋、自定義企業策略執行和可審計推理的內容安全模型。該模型基於 Google Gemma 3 4B IT 構建，通過 LoRA 適配器進行微調，支持 12 種語言的顯式訓練和約 140 種語言的零樣本泛化。它引入了自定義策略執行（通過自然語言策略規範）和推理跟蹤（THINK 模式）功能，可提供可審計的逐步推理。該模型在多項多語言和多模態安全基準測試中平均準確率約為 85%，同時保持了緊湊的 4B 參數大小和低延遲特性。NVIDIA 還發布了配套的安全數據集，包含多模態、多語言的安全推理跟蹤數據。

來源Hugging Face Blog

NVIDIA 發佈了 Nemotron 3.5 Content Safety，這標誌着其內容安全堆棧的重大演進。該模型將多模態輸入、多語言覆蓋、自定義企業策略執行和可審計推理統一到一個推理調用中，為全球企業 AI 部署提供了強大的安全保障。

Nemotron 3.5 基於 Google Gemma 3 4B IT 模型構建，擁有 128K 上下文窗口，並通過 LoRA 適配器進行微調，以植入目標安全分類行為。該模型支持三種輸出模式：低延遲二元判定、帶類別的二元判定，以及 THINK 模式（包含逐步推理跟蹤和判定）。

在語言覆蓋方面，Nemotron 3.5 顯式訓練了 12 種語言（包括英語、法語、西班牙語、德語、中文、日語、韓語、阿拉伯語、印地語、俄語、葡萄牙語和意大利語），並藉助 Gemma 3 基座模型實現了對約 140 種語言的零樣本泛化。這意味着在訓練數據稀缺的市場（如東南亞語言、斯堪的納維亞語言和資源較少的非洲語言）中，部署無需單獨微調即可受益於多語言遷移。

自定義策略執行是 Nemotron 3.5 最顯著的架構改進。生產環境中的部署很少使用單一的通用安全分類法。Nemotron 3.5 接受與輸入一起的自定義策略規範，模型在做出判定時會根據該策略進行推理，而非完全依賴內置分類法。這擴展了先前在 Nemotron Content Safety Reasoning 4B 中引入的工作，將其應用到完整的多模態、多語言設置中。

THINK 模式（推理跟蹤）為每個安全判定提供可審計的推理過程。當啓用時，模型在輸出最終的安全/不安全標籤之前會輸出逐步推理。推理跟蹤不僅有助於合規性和審計日誌記錄，還支持人工審查和策略迭代。為了控制延遲，Nemotron 3.5 通過兩步過程生成簡潔的推理鏈：首先使用大型模型（如 Qwen 397B）生成鏈式思維推理跟蹤，然後使用另一個大型模型（如 Qwen 80B）將其壓縮至不超過三個句子。

訓練數據方面，Nemotron 3.5 使用了多語言文本安全數據、人工標註的多模態數據（99% 為真實照片，而非合成生成）、安全多模態數據、推理跟蹤數據、主題遵循數據以及約 10% 的合成數據。NVIDIA 還發布了 Nemotron 3.5 Content Safety Dataset，這是多模態、多語言且包含安全推理跟蹤的數據集，對於開源安全模型領域具有重要意義。

在基準測試中，Nemotron 3.5 在多項多語言和多模態安全基準測試中平均準確率約為 85%，包括 VLGuard、MM-SafetyBench、PolyGuard、RTP-LX、Aya Redteaming、XSafety 等。在多語言 Aegis 測試中，它實現了 96.5% 的平均有害內容分類準確率；在 RTP-LX 測試中為 88.8%，綜合平均為 92.7%。

Nemotron 3.5 保持了緊湊的 4B 參數大小，可在 8GB+ VRAM GPU 上實時部署，適合全球企業 AI 系統的生產流水線。