2026-05-15 11:45 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

NVIDIA Nemotron 3 Nano Omni：在Baseten上构建多模态智能体

NVIDIA Nemotron 3 Nano Omni 是一款开源的多模态基础模型，将音频、图像、视频和文本统一到单一上下文中。基于 Nemotron 3 Nano 骨干网络构建，为智能体工作流中的子智能体提供高效且准确的推理能力。Baseten 现已支持该模型，提供高性能推理、多云容量管理和企业级安全。

来源Baseten Blog

NVIDIA 近日发布了 Nemotron 3 Nano Omni，这是一款开源的统一多模态基础模型，能够将音频、图像、视频和文本整合到单一的推理上下文中。该模型基于 Nemotron 3 Nano 骨干网络构建，旨在为企业级智能体系统提供高效、准确的子智能体能力。

与当前多数智能体系统依赖独立的语音、视觉和语言模型不同，Nemotron 3 Nano Omni 采用单一多模态推理模型，避免了多次推理带来的延迟，简化了编排和错误处理，并消除了跨模态的上下文碎片化问题。该模型结合了音频和视觉编码器，形成了统一的多模态架构，使智能体能够更快速、更规模化地完成任务。

在架构设计上，Nemotron 3 Nano Omni 有三个关键创新：潜在混合专家（latent MoE）设计提升了内存和计算效率；3D 卷积层能够同时提取空间和时间特征，捕捉视觉变化随时间的变化；高效视频采样机制仅处理长视频中最动态的部分，而非整个帧序列。这些设计使得模型在保持精度的同时显著降低计算成本。

Nemotron 3 Nano Omni 的 30B-A3B 轻量级架构支持在本地环境（如 NVIDIA DGX 系统）、数据中心和云环境中部署。它特别适用于计算机使用、复杂文档智能以及音频视频推理等场景。在客户服务、研究和监控工作流中，模型能够在单一推理循环中保持跨音频、视频和文档的统一多模态上下文。

作为专为超快推理打造的 AI 基础设施平台，Baseten 从第一天起就支持 Nemotron 3 Nano Omni。其平台通过以下功能加速企业 AI 应用：高性能推理，包括基于 NVIDIA Dynamo 和 Blackwell 架构的 GPT-OSS API；多云容量管理（MCM），可自动扩展跨主流云厂商和下一代云提供商的 GPU 资源；专家工程支持，由 Baseten 的前沿部署工程师提供大规模推理协助；以及企业级安全，符合 SOC 2 Type II、SOC 3 和 HIPAA 标准，支持自托管、审计日志和 SSO 等功能。Baseten 推理栈采用 NVFP4、TensorRT-LLM、Dynamo 和 Baseten Speculation Engine 等组件，全部运行在 NVIDIA Blackwell GPU 上。

对于需要构建能看、能听、能推理的智能体的开发者，Nemotron 3 Nano Omni 提供了一个生产就绪的开源基础。该模型能够处理音频、视频、图像和文档等多模态输入，并在一次推理中完成统一推理。用户可以在 Baseten 上部署该模型以进行可扩展的多模态推理，或联系 Baseten 工程师了解更多关于性能、规模、安全性和灵活性的企业级功能，包括自托管能力。