Nemotron 3.5 內容安全:面向全球企業 AI 的可定製多模態安全模型
NVIDIA 發佈 Nemotron 3.5 Content Safety,這是一個統一的、支持多模態輸入、多語言覆蓋、自定義企業策略執行和可審計推理的內容安全模型。該模型基於 Google Gemma 3 4B IT 構建,通過 LoRA 適配器進行微調,支持 12 種語言的顯式訓練和約 140 種語言的零樣本泛化。它引入了自定義策略執行(通過自然語言策略規範)和推理跟蹤(THINK 模式)功能,可提供可審計的逐步推理。該模型在多項多語言和多模態安全基準測試中平均準確率約為 85%,同時保持了緊湊的 4B 參數大小和低延遲特性。NVIDIA 還發布了配套的安全數據集,包含多模態、多語言的安全推理跟蹤數據。
NVIDIA 發佈了 Nemotron 3.5 Content Safety,這標誌着其內容安全堆棧的重大演進。該模型將多模態輸入、多語言覆蓋、自定義企業策略執行和可審計推理統一到一個推理調用中,為全球企業 AI 部署提供了強大的安全保障。
Nemotron 3.5 基於 Google Gemma 3 4B IT 模型構建,擁有 128K 上下文窗口,並通過 LoRA 適配器進行微調,以植入目標安全分類行為。該模型支持三種輸出模式:低延遲二元判定、帶類別的二元判定,以及 THINK 模式(包含逐步推理跟蹤和判定)。
在語言覆蓋方面,Nemotron 3.5 顯式訓練了 12 種語言(包括英語、法語、西班牙語、德語、中文、日語、韓語、阿拉伯語、印地語、俄語、葡萄牙語和意大利語),並藉助 Gemma 3 基座模型實現了對約 140 種語言的零樣本泛化。這意味着在訓練數據稀缺的市場(如東南亞語言、斯堪的納維亞語言和資源較少的非洲語言)中,部署無需單獨微調即可受益於多語言遷移。
自定義策略執行是 Nemotron 3.5 最顯著的架構改進。生產環境中的部署很少使用單一的通用安全分類法。Nemotron 3.5 接受與輸入一起的自定義策略規範,模型在做出判定時會根據該策略進行推理,而非完全依賴內置分類法。這擴展了先前在 Nemotron Content Safety Reasoning 4B 中引入的工作,將其應用到完整的多模態、多語言設置中。
THINK 模式(推理跟蹤)為每個安全判定提供可審計的推理過程。當啓用時,模型在輸出最終的安全/不安全標籤之前會輸出逐步推理。推理跟蹤不僅有助於合規性和審計日誌記錄,還支持人工審查和策略迭代。為了控制延遲,Nemotron 3.5 通過兩步過程生成簡潔的推理鏈:首先使用大型模型(如 Qwen 397B)生成鏈式思維推理跟蹤,然後使用另一個大型模型(如 Qwen 80B)將其壓縮至不超過三個句子。
訓練數據方面,Nemotron 3.5 使用了多語言文本安全數據、人工標註的多模態數據(99% 為真實照片,而非合成生成)、安全多模態數據、推理跟蹤數據、主題遵循數據以及約 10% 的合成數據。NVIDIA 還發布了 Nemotron 3.5 Content Safety Dataset,這是多模態、多語言且包含安全推理跟蹤的數據集,對於開源安全模型領域具有重要意義。
在基準測試中,Nemotron 3.5 在多項多語言和多模態安全基準測試中平均準確率約為 85%,包括 VLGuard、MM-SafetyBench、PolyGuard、RTP-LX、Aya Redteaming、XSafety 等。在多語言 Aegis 測試中,它實現了 96.5% 的平均有害內容分類準確率;在 RTP-LX 測試中為 88.8%,綜合平均為 92.7%。
Nemotron 3.5 保持了緊湊的 4B 參數大小,可在 8GB+ VRAM GPU 上實時部署,適合全球企業 AI 系統的生產流水線。