2026-04-28站内改写

NVIDIA Nemotron 3 Nano Omni：面向文檔、音頻和視頻智能體的長上下文多模態模型

NVIDIA發佈了Nemotron 3 Nano Omni，這是一個全新的全模態理解模型，能夠處理文本、圖像、視頻和音頻。它基於混合Mamba-Transformer-MoE架構，結合C-RADIOv4-H視覺編碼器和Parakeet-TDT-0.6B-v2音頻編碼器，在多個基準測試中取得領先成績。該模型專為文檔分析、自動語音識別、長音頻-視頻理解、智能體計算機使用和通用多模態推理設計，並提供了高效的視頻採樣和動態分辨率處理能力。

文章情報

工程師進階

要點

Nemotron 3 Nano Omni是一個統一的多模態模型，支持文本、圖像、視頻和音頻輸入。
採用混合Mamba-Transformer-MoE架構，具備高效長上下文處理能力。
在文檔理解（如OCRBenchV2、MMLongBench-Doc）和音頻-視頻理解（如WorldSense、DailyOmni）基準上達到頂級精度。
訓練使用了強化學習和合成數據，並通過偏好優化提升了可靠性。

為甚麼重要

這條新聞值得關注，因為Nemotron 3 Nano Omni是一個統一的多模態模型，支持文本、圖像、視頻和音頻輸入。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

NVIDIA 正式發佈了 Nemotron 3 Nano Omni，這是一款面向真實世界應用的全模態（omni-modal）理解模型，能夠同時處理文本、圖像、視頻和音頻。該模型基於 Nemotron 3 Nano 30B-A3B 語言骨幹，搭配 C-RADIOv4-H 視覺編碼器和 Parakeet-TDT-0.6B-v2 音頻編碼器，並通過輕量級投影器將各模態特徵映射到統一的嵌入空間。

在多項基準測試中，Nemotron 3 Nano Omni 表現優異。文檔理解方面，它在 OCRBenchV2-En 上達到 65.8%，在 MMLongBench-Doc 上達到 57.5%，大幅超越前代模型 Nemotron Nano V2 VL。視頻理解方面，Video-MME 得分 72.2%，而結合音頻-視頻的 WorldSense 和 DailyOmni 分別取得 55.4% 和 74.1%。語音交互方面，VoiceBench 得分 89.4%，ASR 在 HF Open ASR 上取得 5.95 的低詞錯誤率。與同類模型（如 Qwen3-Omni）相比，Nemotron 3 Nano Omni 在多個領域表現領先，同時效率優勢顯著，最高可實現 9 倍的系統吞吐量提升。

模型架構方面，Nemotron 3 Nano Omni 採用混合 Mamba-Transformer-MoE 設計，包含 23 個 Mamba 選擇性狀態空間層、23 個 MoE 層（128 個專家，top-6 路由）以及 6 個分組查詢注意力層。這種組合在保持強大推理性能的同時，能夠高效處理長多模態上下文。視覺部分支持動態分辨率，每個圖像可表示為 1024 到 13312 個視覺補丁，適應不同分辨率和長寬比。視頻處理使用 Conv3D 管狀嵌入，將相鄰幀融合為管狀令牌，並通過高效視頻採樣（EVS）丟棄冗餘令牌，從而降低延遲並提升吞吐量。音頻方面，模型原生處理 16kHz 採樣率的音頻，支持長達 20 分鐘的輸入序列，而 LLM 最大上下文長度支持 5 小時以上。

訓練過程採用分階段多模態對齊和上下文擴展，隨後進行偏好優化和多模態強化學習。NVIDIA 開源了訓練代碼和數據管道，包括使用 NeMo Data Designer 生成的約 1140 萬合成問答對（約 45B 令牌），這些數據用於增強長文檔推理能力，並在 MMLongBench-Doc 上實現了 2.19 倍的準確性提升。

Nemotron 3 Nano Omni 支持多種工作流：長文檔分析（如財務報告、學術論文）、視頻音頻聯合理解（如帶旁白的屏幕錄製）、智能體計算機使用（GUI 操作）、混合文檔-圖表-敍述推理以及環境聲音和音樂理解。模型以 BF16、FP8 和 NVFP4 精度在 Hugging Face 上開源，並提供技術報告和訓練配方。