2026-04-28站内改写

NVIDIA Nemotron 3 Nano Omni：面向文档、音频和视频智能体的长上下文多模态模型

NVIDIA发布了Nemotron 3 Nano Omni，这是一个全新的全模态理解模型，能够处理文本、图像、视频和音频。它基于混合Mamba-Transformer-MoE架构，结合C-RADIOv4-H视觉编码器和Parakeet-TDT-0.6B-v2音频编码器，在多个基准测试中取得领先成绩。该模型专为文档分析、自动语音识别、长音频-视频理解、智能体计算机使用和通用多模态推理设计，并提供了高效的视频采样和动态分辨率处理能力。

文章情报

工程师进阶

要点

Nemotron 3 Nano Omni是一个统一的多模态模型，支持文本、图像、视频和音频输入。
采用混合Mamba-Transformer-MoE架构，具备高效长上下文处理能力。
在文档理解（如OCRBenchV2、MMLongBench-Doc）和音频-视频理解（如WorldSense、DailyOmni）基准上达到顶级精度。
训练使用了强化学习和合成数据，并通过偏好优化提升了可靠性。

为什么重要

这条新闻值得关注，因为Nemotron 3 Nano Omni是一个统一的多模态模型，支持文本、图像、视频和音频输入。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

NVIDIA 正式发布了 Nemotron 3 Nano Omni，这是一款面向真实世界应用的全模态（omni-modal）理解模型，能够同时处理文本、图像、视频和音频。该模型基于 Nemotron 3 Nano 30B-A3B 语言骨干，搭配 C-RADIOv4-H 视觉编码器和 Parakeet-TDT-0.6B-v2 音频编码器，并通过轻量级投影器将各模态特征映射到统一的嵌入空间。

在多项基准测试中，Nemotron 3 Nano Omni 表现优异。文档理解方面，它在 OCRBenchV2-En 上达到 65.8%，在 MMLongBench-Doc 上达到 57.5%，大幅超越前代模型 Nemotron Nano V2 VL。视频理解方面，Video-MME 得分 72.2%，而结合音频-视频的 WorldSense 和 DailyOmni 分别取得 55.4% 和 74.1%。语音交互方面，VoiceBench 得分 89.4%，ASR 在 HF Open ASR 上取得 5.95 的低词错误率。与同类模型（如 Qwen3-Omni）相比，Nemotron 3 Nano Omni 在多个领域表现领先，同时效率优势显著，最高可实现 9 倍的系统吞吐量提升。

模型架构方面，Nemotron 3 Nano Omni 采用混合 Mamba-Transformer-MoE 设计，包含 23 个 Mamba 选择性状态空间层、23 个 MoE 层（128 个专家，top-6 路由）以及 6 个分组查询注意力层。这种组合在保持强大推理性能的同时，能够高效处理长多模态上下文。视觉部分支持动态分辨率，每个图像可表示为 1024 到 13312 个视觉补丁，适应不同分辨率和长宽比。视频处理使用 Conv3D 管状嵌入，将相邻帧融合为管状令牌，并通过高效视频采样（EVS）丢弃冗余令牌，从而降低延迟并提升吞吐量。音频方面，模型原生处理 16kHz 采样率的音频，支持长达 20 分钟的输入序列，而 LLM 最大上下文长度支持 5 小时以上。

训练过程采用分阶段多模态对齐和上下文扩展，随后进行偏好优化和多模态强化学习。NVIDIA 开源了训练代码和数据管道，包括使用 NeMo Data Designer 生成的约 1140 万合成问答对（约 45B 令牌），这些数据用于增强长文档推理能力，并在 MMLongBench-Doc 上实现了 2.19 倍的准确性提升。

Nemotron 3 Nano Omni 支持多种工作流：长文档分析（如财务报告、学术论文）、视频音频联合理解（如带旁白的屏幕录制）、智能体计算机使用（GUI 操作）、混合文档-图表-叙述推理以及环境声音和音乐理解。模型以 BF16、FP8 和 NVFP4 精度在 Hugging Face 上开源，并提供技术报告和训练配方。