2026-04-28站内改写

NVIDIA Nemotron 3 Nano Omni：面向文件、音訊和影片智慧體的長上下文多模態模型

NVIDIA釋出了Nemotron 3 Nano Omni，這是一個全新的全模態理解模型，能夠處理文本、影像、影片和音訊。它基於混合Mamba-Transformer-MoE架構，結合C-RADIOv4-H視覺編碼器和Parakeet-TDT-0.6B-v2音訊編碼器，在多個基準測試中取得領先成績。該模型專為文件分析、自動語音識別、長音訊-影片理解、智慧體計算機使用和通用多模態推理設計，並提供了高效的影片取樣和動態解析度處理能力。

文章情報

工程師進階

要點

Nemotron 3 Nano Omni是一個統一的多模態模型，支援文本、影像、影片和音訊輸入。
採用混合Mamba-Transformer-MoE架構，具備高效長上下文處理能力。
在文件理解（如OCRBenchV2、MMLongBench-Doc）和音訊-影片理解（如WorldSense、DailyOmni）基準上達到頂級精度。
訓練使用了強化學習和合成資料，並透過偏好最佳化提升了可靠性。

為什麼重要

這條新聞值得關注，因為Nemotron 3 Nano Omni是一個統一的多模態模型，支援文本、影像、影片和音訊輸入。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

NVIDIA 正式釋出了 Nemotron 3 Nano Omni，這是一款面向真實世界應用的全模態（omni-modal）理解模型，能夠同時處理文本、影像、影片和音訊。該模型基於 Nemotron 3 Nano 30B-A3B 語言骨幹，搭配 C-RADIOv4-H 視覺編碼器和 Parakeet-TDT-0.6B-v2 音訊編碼器，並透過輕量級投影器將各模態特徵對映到統一的嵌入空間。

在多項基準測試中，Nemotron 3 Nano Omni 表現優異。文件理解方面，它在 OCRBenchV2-En 上達到 65.8%，在 MMLongBench-Doc 上達到 57.5%，大幅超越前代模型 Nemotron Nano V2 VL。影片理解方面，Video-MME 得分 72.2%，而結合音訊-影片的 WorldSense 和 DailyOmni 分別取得 55.4% 和 74.1%。語音互動方面，VoiceBench 得分 89.4%，ASR 在 HF Open ASR 上取得 5.95 的低詞錯誤率。與同類模型（如 Qwen3-Omni）相比，Nemotron 3 Nano Omni 在多個領域表現領先，同時效率優勢顯著，最高可實現 9 倍的系統吞吐量提升。

模型架構方面，Nemotron 3 Nano Omni 採用混合 Mamba-Transformer-MoE 設計，包含 23 個 Mamba 選擇性狀態空間層、23 個 MoE 層（128 個專家，top-6 路由）以及 6 個分組查詢注意力層。這種組合在保持強大推理效能的同時，能夠高效處理長多模態上下文。視覺部分支援動態解析度，每個影像可表示為 1024 到 13312 個視覺補丁，適應不同解析度和長寬比。影片處理使用 Conv3D 管狀嵌入，將相鄰幀融合為管狀令牌，並透過高效影片取樣（EVS）丟棄冗餘令牌，從而降低延遲並提升吞吐量。音訊方面，模型原生處理 16kHz 取樣率的音訊，支援長達 20 分鐘的輸入序列，而 LLM 最大上下文長度支援 5 小時以上。

訓練過程採用分階段多模態對齊和上下文擴充套件，隨後進行偏好最佳化和多模態強化學習。NVIDIA 開源了訓練程式碼和資料管道，包括使用 NeMo Data Designer 生成的約 1140 萬合成問答對（約 45B 令牌），這些資料用於增強長文件推理能力，並在 MMLongBench-Doc 上實現了 2.19 倍的準確性提升。

Nemotron 3 Nano Omni 支援多種工作流：長文件分析（如財務報告、學術論文）、影片音訊聯合理解（如帶旁白的螢幕錄製）、智慧體計算機使用（GUI 操作）、混合文件-圖表-敘述推理以及環境聲音和音樂理解。模型以 BF16、FP8 和 NVFP4 精度在 Hugging Face 上開源，並提供技術報告和訓練配方。