NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频智能体的长上下文多模态模型
NVIDIA发布了Nemotron 3 Nano Omni,这是一个全新的全模态理解模型,能够处理文本、图像、视频和音频。它基于混合Mamba-Transformer-MoE架构,结合C-RADIOv4-H视觉编码器和Parakeet-TDT-0.6B-v2音频编码器,在多个基准测试中取得领先成绩。该模型专为文档分析、自动语音识别、长音频-视频理解、智能体计算机使用和通用多模态推理设计,并提供了高效的视频采样和动态分辨率处理能力。
文章情报
要点
- Nemotron 3 Nano Omni是一个统一的多模态模型,支持文本、图像、视频和音频输入。
- 采用混合Mamba-Transformer-MoE架构,具备高效长上下文处理能力。
- 在文档理解(如OCRBenchV2、MMLongBench-Doc)和音频-视频理解(如WorldSense、DailyOmni)基准上达到顶级精度。
- 训练使用了强化学习和合成数据,并通过偏好优化提升了可靠性。
为什么重要
这条新闻值得关注,因为Nemotron 3 Nano Omni是一个统一的多模态模型,支持文本、图像、视频和音频输入。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
NVIDIA 正式发布了 Nemotron 3 Nano Omni,这是一款面向真实世界应用的全模态(omni-modal)理解模型,能够同时处理文本、图像、视频和音频。该模型基于 Nemotron 3 Nano 30B-A3B 语言骨干,搭配 C-RADIOv4-H 视觉编码器和 Parakeet-TDT-0.6B-v2 音频编码器,并通过轻量级投影器将各模态特征映射到统一的嵌入空间。
在多项基准测试中,Nemotron 3 Nano Omni 表现优异。文档理解方面,它在 OCRBenchV2-En 上达到 65.8%,在 MMLongBench-Doc 上达到 57.5%,大幅超越前代模型 Nemotron Nano V2 VL。视频理解方面,Video-MME 得分 72.2%,而结合音频-视频的 WorldSense 和 DailyOmni 分别取得 55.4% 和 74.1%。语音交互方面,VoiceBench 得分 89.4%,ASR 在 HF Open ASR 上取得 5.95 的低词错误率。与同类模型(如 Qwen3-Omni)相比,Nemotron 3 Nano Omni 在多个领域表现领先,同时效率优势显著,最高可实现 9 倍的系统吞吐量提升。
模型架构方面,Nemotron 3 Nano Omni 采用混合 Mamba-Transformer-MoE 设计,包含 23 个 Mamba 选择性状态空间层、23 个 MoE 层(128 个专家,top-6 路由)以及 6 个分组查询注意力层。这种组合在保持强大推理性能的同时,能够高效处理长多模态上下文。视觉部分支持动态分辨率,每个图像可表示为 1024 到 13312 个视觉补丁,适应不同分辨率和长宽比。视频处理使用 Conv3D 管状嵌入,将相邻帧融合为管状令牌,并通过高效视频采样(EVS)丢弃冗余令牌,从而降低延迟并提升吞吐量。音频方面,模型原生处理 16kHz 采样率的音频,支持长达 20 分钟的输入序列,而 LLM 最大上下文长度支持 5 小时以上。
训练过程采用分阶段多模态对齐和上下文扩展,随后进行偏好优化和多模态强化学习。NVIDIA 开源了训练代码和数据管道,包括使用 NeMo Data Designer 生成的约 1140 万合成问答对(约 45B 令牌),这些数据用于增强长文档推理能力,并在 MMLongBench-Doc 上实现了 2.19 倍的准确性提升。
Nemotron 3 Nano Omni 支持多种工作流:长文档分析(如财务报告、学术论文)、视频音频联合理解(如带旁白的屏幕录制)、智能体计算机使用(GUI 操作)、混合文档-图表-叙述推理以及环境声音和音乐理解。模型以 BF16、FP8 和 NVFP4 精度在 Hugging Face 上开源,并提供技术报告和训练配方。