NVIDIA Nemotron 3 Nano Omni:在Baseten上構建多模態智慧體
NVIDIA Nemotron 3 Nano Omni 是一款開源的多模態基礎模型,將音訊、影像、影片和文本統一到單一上下文中。基於 Nemotron 3 Nano 骨幹網路構建,為智慧體工作流中的子智慧體提供高效且準確的推理能力。Baseten 現已支援該模型,提供高效能推理、多雲容量管理和企業級安全。
NVIDIA 近日釋出了 Nemotron 3 Nano Omni,這是一款開源的統一多模態基礎模型,能夠將音訊、影像、影片和文本整合到單一的推理上下文中。該模型基於 Nemotron 3 Nano 骨幹網路構建,旨在為企業級智慧體系統提供高效、準確的子智慧體能力。
與當前多數智慧體系統依賴獨立的語音、視覺和語言模型不同,Nemotron 3 Nano Omni 採用單一多模態推理模型,避免了多次推理帶來的延遲,簡化了編排和錯誤處理,並消除了跨模態的上下文碎片化問題。該模型結合了音訊和視覺編碼器,形成了統一的多模態架構,使智慧體能夠更快速、更規模化地完成任務。
在架構設計上,Nemotron 3 Nano Omni 有三個關鍵創新:潛在混合專家(latent MoE)設計提升了記憶體和計算效率;3D 卷積層能夠同時提取空間和時間特徵,捕捉視覺變化隨時間的變化;高效影片取樣機制僅處理長影片中最動態的部分,而非整個幀序列。這些設計使得模型在保持精度的同時顯著降低計算成本。
Nemotron 3 Nano Omni 的 30B-A3B 輕量級架構支援在本地環境(如 NVIDIA DGX 系統)、資料中心和雲環境中部署。它特別適用於計算機使用、複雜文件智慧以及音訊影片推理等場景。在客戶服務、研究和監控工作流中,模型能夠在單一推理迴圈中保持跨音訊、影片和文件的統一多模態上下文。
作為專為超快推理打造的 AI 基礎設施平臺,Baseten 從第一天起就支援 Nemotron 3 Nano Omni。其平臺透過以下功能加速企業 AI 應用:高效能推理,包括基於 NVIDIA Dynamo 和 Blackwell 架構的 GPT-OSS API;多雲容量管理(MCM),可自動擴充套件跨主流雲廠商和下一代雲提供商的 GPU 資源;專家工程支援,由 Baseten 的前沿部署工程師提供大規模推理協助;以及企業級安全,符合 SOC 2 Type II、SOC 3 和 HIPAA 標準,支援自託管、審計日誌和 SSO 等功能。Baseten 推理棧採用 NVFP4、TensorRT-LLM、Dynamo 和 Baseten Speculation Engine 等元件,全部執行在 NVIDIA Blackwell GPU 上。
對於需要構建能看、能聽、能推理的智慧體的開發者,Nemotron 3 Nano Omni 提供了一個生產就緒的開源基礎。該模型能夠處理音訊、影片、影像和文件等多模態輸入,並在一次推理中完成統一推理。使用者可以在 Baseten 上部署該模型以進行可擴充套件的多模態推理,或聯絡 Baseten 工程師瞭解更多關於效能、規模、安全性和靈活性的企業級功能,包括自託管能力。