2026-05-15 11:45 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

NVIDIA Nemotron 3 Nano Omni：在Baseten上構建多模態智慧體

NVIDIA Nemotron 3 Nano Omni 是一款開源的多模態基礎模型，將音訊、影像、影片和文本統一到單一上下文中。基於 Nemotron 3 Nano 骨幹網路構建，為智慧體工作流中的子智慧體提供高效且準確的推理能力。Baseten 現已支援該模型，提供高效能推理、多雲容量管理和企業級安全。

來源Baseten Blog

NVIDIA 近日釋出了 Nemotron 3 Nano Omni，這是一款開源的統一多模態基礎模型，能夠將音訊、影像、影片和文本整合到單一的推理上下文中。該模型基於 Nemotron 3 Nano 骨幹網路構建，旨在為企業級智慧體系統提供高效、準確的子智慧體能力。

與當前多數智慧體系統依賴獨立的語音、視覺和語言模型不同，Nemotron 3 Nano Omni 採用單一多模態推理模型，避免了多次推理帶來的延遲，簡化了編排和錯誤處理，並消除了跨模態的上下文碎片化問題。該模型結合了音訊和視覺編碼器，形成了統一的多模態架構，使智慧體能夠更快速、更規模化地完成任務。

在架構設計上，Nemotron 3 Nano Omni 有三個關鍵創新：潛在混合專家（latent MoE）設計提升了記憶體和計算效率；3D 卷積層能夠同時提取空間和時間特徵，捕捉視覺變化隨時間的變化；高效影片取樣機制僅處理長影片中最動態的部分，而非整個幀序列。這些設計使得模型在保持精度的同時顯著降低計算成本。

Nemotron 3 Nano Omni 的 30B-A3B 輕量級架構支援在本地環境（如 NVIDIA DGX 系統）、資料中心和雲環境中部署。它特別適用於計算機使用、複雜文件智慧以及音訊影片推理等場景。在客戶服務、研究和監控工作流中，模型能夠在單一推理迴圈中保持跨音訊、影片和文件的統一多模態上下文。

作為專為超快推理打造的 AI 基礎設施平臺，Baseten 從第一天起就支援 Nemotron 3 Nano Omni。其平臺透過以下功能加速企業 AI 應用：高效能推理，包括基於 NVIDIA Dynamo 和 Blackwell 架構的 GPT-OSS API；多雲容量管理（MCM），可自動擴充套件跨主流雲廠商和下一代雲提供商的 GPU 資源；專家工程支援，由 Baseten 的前沿部署工程師提供大規模推理協助；以及企業級安全，符合 SOC 2 Type II、SOC 3 和 HIPAA 標準，支援自託管、審計日誌和 SSO 等功能。Baseten 推理棧採用 NVFP4、TensorRT-LLM、Dynamo 和 Baseten Speculation Engine 等元件，全部執行在 NVIDIA Blackwell GPU 上。

對於需要構建能看、能聽、能推理的智慧體的開發者，Nemotron 3 Nano Omni 提供了一個生產就緒的開源基礎。該模型能夠處理音訊、影片、影像和文件等多模態輸入，並在一次推理中完成統一推理。使用者可以在 Baseten 上部署該模型以進行可擴充套件的多模態推理，或聯絡 Baseten 工程師瞭解更多關於效能、規模、安全性和靈活性的企業級功能，包括自託管能力。