NVIDIA Nemotron 3 Nano Omni:在Baseten上構建多模態智能體
NVIDIA Nemotron 3 Nano Omni 是一款開源的多模態基礎模型,將音頻、圖像、視頻和文本統一到單一上下文中。基於 Nemotron 3 Nano 骨幹網絡構建,為智能體工作流中的子智能體提供高效且準確的推理能力。Baseten 現已支持該模型,提供高性能推理、多雲容量管理和企業級安全。
NVIDIA 近日發佈了 Nemotron 3 Nano Omni,這是一款開源的統一多模態基礎模型,能夠將音頻、圖像、視頻和文本整合到單一的推理上下文中。該模型基於 Nemotron 3 Nano 骨幹網絡構建,旨在為企業級智能體系統提供高效、準確的子智能體能力。
與當前多數智能體系統依賴獨立的語音、視覺和語言模型不同,Nemotron 3 Nano Omni 採用單一多模態推理模型,避免了多次推理帶來的延遲,簡化了編排和錯誤處理,並消除了跨模態的上下文碎片化問題。該模型結合了音頻和視覺編碼器,形成了統一的多模態架構,使智能體能夠更快速、更規模化地完成任務。
在架構設計上,Nemotron 3 Nano Omni 有三個關鍵創新:潛在混合專家(latent MoE)設計提升了內存和計算效率;3D 卷積層能夠同時提取空間和時間特徵,捕捉視覺變化隨時間的變化;高效視頻採樣機制僅處理長視頻中最動態的部分,而非整個幀序列。這些設計使得模型在保持精度的同時顯著降低計算成本。
Nemotron 3 Nano Omni 的 30B-A3B 輕量級架構支持在本地環境(如 NVIDIA DGX 系統)、數據中心和雲環境中部署。它特別適用於計算機使用、複雜文檔智能以及音頻視頻推理等場景。在客户服務、研究和監控工作流中,模型能夠在單一推理循環中保持跨音頻、視頻和文檔的統一多模態上下文。
作為專為超快推理打造的 AI 基礎設施平台,Baseten 從第一天起就支持 Nemotron 3 Nano Omni。其平台通過以下功能加速企業 AI 應用:高性能推理,包括基於 NVIDIA Dynamo 和 Blackwell 架構的 GPT-OSS API;多雲容量管理(MCM),可自動擴展跨主流雲廠商和下一代雲提供商的 GPU 資源;專家工程支持,由 Baseten 的前沿部署工程師提供大規模推理協助;以及企業級安全,符合 SOC 2 Type II、SOC 3 和 HIPAA 標準,支持自託管、審計日誌和 SSO 等功能。Baseten 推理棧採用 NVFP4、TensorRT-LLM、Dynamo 和 Baseten Speculation Engine 等組件,全部運行在 NVIDIA Blackwell GPU 上。
對於需要構建能看、能聽、能推理的智能體的開發者,Nemotron 3 Nano Omni 提供了一個生產就緒的開源基礎。該模型能夠處理音頻、視頻、圖像和文檔等多模態輸入,並在一次推理中完成統一推理。用户可以在 Baseten 上部署該模型以進行可擴展的多模態推理,或聯繫 Baseten 工程師瞭解更多關於性能、規模、安全性和靈活性的企業級功能,包括自託管能力。