AI News HubLIVE
站内改写2 分钟阅读

NVIDIA Nemotron 3 Nano Omni:在Baseten上构建多模态智能体

NVIDIA Nemotron 3 Nano Omni 是一款开源的多模态基础模型,将音频、图像、视频和文本统一到单一上下文中。基于 Nemotron 3 Nano 骨干网络构建,为智能体工作流中的子智能体提供高效且准确的推理能力。Baseten 现已支持该模型,提供高性能推理、多云容量管理和企业级安全。

NVIDIA 近日发布了 Nemotron 3 Nano Omni,这是一款开源的统一多模态基础模型,能够将音频、图像、视频和文本整合到单一的推理上下文中。该模型基于 Nemotron 3 Nano 骨干网络构建,旨在为企业级智能体系统提供高效、准确的子智能体能力。

与当前多数智能体系统依赖独立的语音、视觉和语言模型不同,Nemotron 3 Nano Omni 采用单一多模态推理模型,避免了多次推理带来的延迟,简化了编排和错误处理,并消除了跨模态的上下文碎片化问题。该模型结合了音频和视觉编码器,形成了统一的多模态架构,使智能体能够更快速、更规模化地完成任务。

在架构设计上,Nemotron 3 Nano Omni 有三个关键创新:潜在混合专家(latent MoE)设计提升了内存和计算效率;3D 卷积层能够同时提取空间和时间特征,捕捉视觉变化随时间的变化;高效视频采样机制仅处理长视频中最动态的部分,而非整个帧序列。这些设计使得模型在保持精度的同时显著降低计算成本。

Nemotron 3 Nano Omni 的 30B-A3B 轻量级架构支持在本地环境(如 NVIDIA DGX 系统)、数据中心和云环境中部署。它特别适用于计算机使用、复杂文档智能以及音频视频推理等场景。在客户服务、研究和监控工作流中,模型能够在单一推理循环中保持跨音频、视频和文档的统一多模态上下文。

作为专为超快推理打造的 AI 基础设施平台,Baseten 从第一天起就支持 Nemotron 3 Nano Omni。其平台通过以下功能加速企业 AI 应用:高性能推理,包括基于 NVIDIA Dynamo 和 Blackwell 架构的 GPT-OSS API;多云容量管理(MCM),可自动扩展跨主流云厂商和下一代云提供商的 GPU 资源;专家工程支持,由 Baseten 的前沿部署工程师提供大规模推理协助;以及企业级安全,符合 SOC 2 Type II、SOC 3 和 HIPAA 标准,支持自托管、审计日志和 SSO 等功能。Baseten 推理栈采用 NVFP4、TensorRT-LLM、Dynamo 和 Baseten Speculation Engine 等组件,全部运行在 NVIDIA Blackwell GPU 上。

对于需要构建能看、能听、能推理的智能体的开发者,Nemotron 3 Nano Omni 提供了一个生产就绪的开源基础。该模型能够处理音频、视频、图像和文档等多模态输入,并在一次推理中完成统一推理。用户可以在 Baseten 上部署该模型以进行可扩展的多模态推理,或联系 Baseten 工程师了解更多关于性能、规模、安全性和灵活性的企业级功能,包括自托管能力。