NVIDIA Nemotron 3 Nano Omni:面向文檔、音頻和視頻智能體的長上下文多模態模型
NVIDIA發佈了Nemotron 3 Nano Omni,這是一個全新的全模態理解模型,能夠處理文本、圖像、視頻和音頻。它基於混合Mamba-Transformer-MoE架構,結合C-RADIOv4-H視覺編碼器和Parakeet-TDT-0.6B-v2音頻編碼器,在多個基準測試中取得領先成績。該模型專為文檔分析、自動語音識別、長音頻-視頻理解、智能體計算機使用和通用多模態推理設計,並提供了高效的視頻採樣和動態分辨率處理能力。
文章情報
要點
- Nemotron 3 Nano Omni是一個統一的多模態模型,支持文本、圖像、視頻和音頻輸入。
- 採用混合Mamba-Transformer-MoE架構,具備高效長上下文處理能力。
- 在文檔理解(如OCRBenchV2、MMLongBench-Doc)和音頻-視頻理解(如WorldSense、DailyOmni)基準上達到頂級精度。
- 訓練使用了強化學習和合成數據,並通過偏好優化提升了可靠性。
為甚麼重要
這條新聞值得關注,因為Nemotron 3 Nano Omni是一個統一的多模態模型,支持文本、圖像、視頻和音頻輸入。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
NVIDIA 正式發佈了 Nemotron 3 Nano Omni,這是一款面向真實世界應用的全模態(omni-modal)理解模型,能夠同時處理文本、圖像、視頻和音頻。該模型基於 Nemotron 3 Nano 30B-A3B 語言骨幹,搭配 C-RADIOv4-H 視覺編碼器和 Parakeet-TDT-0.6B-v2 音頻編碼器,並通過輕量級投影器將各模態特徵映射到統一的嵌入空間。
在多項基準測試中,Nemotron 3 Nano Omni 表現優異。文檔理解方面,它在 OCRBenchV2-En 上達到 65.8%,在 MMLongBench-Doc 上達到 57.5%,大幅超越前代模型 Nemotron Nano V2 VL。視頻理解方面,Video-MME 得分 72.2%,而結合音頻-視頻的 WorldSense 和 DailyOmni 分別取得 55.4% 和 74.1%。語音交互方面,VoiceBench 得分 89.4%,ASR 在 HF Open ASR 上取得 5.95 的低詞錯誤率。與同類模型(如 Qwen3-Omni)相比,Nemotron 3 Nano Omni 在多個領域表現領先,同時效率優勢顯著,最高可實現 9 倍的系統吞吐量提升。
模型架構方面,Nemotron 3 Nano Omni 採用混合 Mamba-Transformer-MoE 設計,包含 23 個 Mamba 選擇性狀態空間層、23 個 MoE 層(128 個專家,top-6 路由)以及 6 個分組查詢注意力層。這種組合在保持強大推理性能的同時,能夠高效處理長多模態上下文。視覺部分支持動態分辨率,每個圖像可表示為 1024 到 13312 個視覺補丁,適應不同分辨率和長寬比。視頻處理使用 Conv3D 管狀嵌入,將相鄰幀融合為管狀令牌,並通過高效視頻採樣(EVS)丟棄冗餘令牌,從而降低延遲並提升吞吐量。音頻方面,模型原生處理 16kHz 採樣率的音頻,支持長達 20 分鐘的輸入序列,而 LLM 最大上下文長度支持 5 小時以上。
訓練過程採用分階段多模態對齊和上下文擴展,隨後進行偏好優化和多模態強化學習。NVIDIA 開源了訓練代碼和數據管道,包括使用 NeMo Data Designer 生成的約 1140 萬合成問答對(約 45B 令牌),這些數據用於增強長文檔推理能力,並在 MMLongBench-Doc 上實現了 2.19 倍的準確性提升。
Nemotron 3 Nano Omni 支持多種工作流:長文檔分析(如財務報告、學術論文)、視頻音頻聯合理解(如帶旁白的屏幕錄製)、智能體計算機使用(GUI 操作)、混合文檔-圖表-敍述推理以及環境聲音和音樂理解。模型以 BF16、FP8 和 NVFP4 精度在 Hugging Face 上開源,並提供技術報告和訓練配方。