NVIDIA Nemotron 3 Nano Omni:面向文件、音訊和影片智慧體的長上下文多模態模型
NVIDIA釋出了Nemotron 3 Nano Omni,這是一個全新的全模態理解模型,能夠處理文本、影像、影片和音訊。它基於混合Mamba-Transformer-MoE架構,結合C-RADIOv4-H視覺編碼器和Parakeet-TDT-0.6B-v2音訊編碼器,在多個基準測試中取得領先成績。該模型專為文件分析、自動語音識別、長音訊-影片理解、智慧體計算機使用和通用多模態推理設計,並提供了高效的影片取樣和動態解析度處理能力。
文章情報
要點
- Nemotron 3 Nano Omni是一個統一的多模態模型,支援文本、影像、影片和音訊輸入。
- 採用混合Mamba-Transformer-MoE架構,具備高效長上下文處理能力。
- 在文件理解(如OCRBenchV2、MMLongBench-Doc)和音訊-影片理解(如WorldSense、DailyOmni)基準上達到頂級精度。
- 訓練使用了強化學習和合成資料,並透過偏好最佳化提升了可靠性。
為什麼重要
這條新聞值得關注,因為Nemotron 3 Nano Omni是一個統一的多模態模型,支援文本、影像、影片和音訊輸入。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
NVIDIA 正式釋出了 Nemotron 3 Nano Omni,這是一款面向真實世界應用的全模態(omni-modal)理解模型,能夠同時處理文本、影像、影片和音訊。該模型基於 Nemotron 3 Nano 30B-A3B 語言骨幹,搭配 C-RADIOv4-H 視覺編碼器和 Parakeet-TDT-0.6B-v2 音訊編碼器,並透過輕量級投影器將各模態特徵對映到統一的嵌入空間。
在多項基準測試中,Nemotron 3 Nano Omni 表現優異。文件理解方面,它在 OCRBenchV2-En 上達到 65.8%,在 MMLongBench-Doc 上達到 57.5%,大幅超越前代模型 Nemotron Nano V2 VL。影片理解方面,Video-MME 得分 72.2%,而結合音訊-影片的 WorldSense 和 DailyOmni 分別取得 55.4% 和 74.1%。語音互動方面,VoiceBench 得分 89.4%,ASR 在 HF Open ASR 上取得 5.95 的低詞錯誤率。與同類模型(如 Qwen3-Omni)相比,Nemotron 3 Nano Omni 在多個領域表現領先,同時效率優勢顯著,最高可實現 9 倍的系統吞吐量提升。
模型架構方面,Nemotron 3 Nano Omni 採用混合 Mamba-Transformer-MoE 設計,包含 23 個 Mamba 選擇性狀態空間層、23 個 MoE 層(128 個專家,top-6 路由)以及 6 個分組查詢注意力層。這種組合在保持強大推理效能的同時,能夠高效處理長多模態上下文。視覺部分支援動態解析度,每個影像可表示為 1024 到 13312 個視覺補丁,適應不同解析度和長寬比。影片處理使用 Conv3D 管狀嵌入,將相鄰幀融合為管狀令牌,並透過高效影片取樣(EVS)丟棄冗餘令牌,從而降低延遲並提升吞吐量。音訊方面,模型原生處理 16kHz 取樣率的音訊,支援長達 20 分鐘的輸入序列,而 LLM 最大上下文長度支援 5 小時以上。
訓練過程採用分階段多模態對齊和上下文擴充套件,隨後進行偏好最佳化和多模態強化學習。NVIDIA 開源了訓練程式碼和資料管道,包括使用 NeMo Data Designer 生成的約 1140 萬合成問答對(約 45B 令牌),這些資料用於增強長文件推理能力,並在 MMLongBench-Doc 上實現了 2.19 倍的準確性提升。
Nemotron 3 Nano Omni 支援多種工作流:長文件分析(如財務報告、學術論文)、影片音訊聯合理解(如帶旁白的螢幕錄製)、智慧體計算機使用(GUI 操作)、混合文件-圖表-敘述推理以及環境聲音和音樂理解。模型以 BF16、FP8 和 NVFP4 精度在 Hugging Face 上開源,並提供技術報告和訓練配方。