2026-05-15 11:45 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

NVIDIA Nemotron 3 Nano Omni：在Baseten上構建多模態智能體

NVIDIA Nemotron 3 Nano Omni 是一款開源的多模態基礎模型，將音頻、圖像、視頻和文本統一到單一上下文中。基於 Nemotron 3 Nano 骨幹網絡構建，為智能體工作流中的子智能體提供高效且準確的推理能力。Baseten 現已支持該模型，提供高性能推理、多雲容量管理和企業級安全。

來源Baseten Blog

NVIDIA 近日發佈了 Nemotron 3 Nano Omni，這是一款開源的統一多模態基礎模型，能夠將音頻、圖像、視頻和文本整合到單一的推理上下文中。該模型基於 Nemotron 3 Nano 骨幹網絡構建，旨在為企業級智能體系統提供高效、準確的子智能體能力。

與當前多數智能體系統依賴獨立的語音、視覺和語言模型不同，Nemotron 3 Nano Omni 採用單一多模態推理模型，避免了多次推理帶來的延遲，簡化了編排和錯誤處理，並消除了跨模態的上下文碎片化問題。該模型結合了音頻和視覺編碼器，形成了統一的多模態架構，使智能體能夠更快速、更規模化地完成任務。

在架構設計上，Nemotron 3 Nano Omni 有三個關鍵創新：潛在混合專家（latent MoE）設計提升了內存和計算效率；3D 卷積層能夠同時提取空間和時間特徵，捕捉視覺變化隨時間的變化；高效視頻採樣機制僅處理長視頻中最動態的部分，而非整個幀序列。這些設計使得模型在保持精度的同時顯著降低計算成本。

Nemotron 3 Nano Omni 的 30B-A3B 輕量級架構支持在本地環境（如 NVIDIA DGX 系統）、數據中心和雲環境中部署。它特別適用於計算機使用、複雜文檔智能以及音頻視頻推理等場景。在客户服務、研究和監控工作流中，模型能夠在單一推理循環中保持跨音頻、視頻和文檔的統一多模態上下文。

作為專為超快推理打造的 AI 基礎設施平台，Baseten 從第一天起就支持 Nemotron 3 Nano Omni。其平台通過以下功能加速企業 AI 應用：高性能推理，包括基於 NVIDIA Dynamo 和 Blackwell 架構的 GPT-OSS API；多雲容量管理（MCM），可自動擴展跨主流雲廠商和下一代雲提供商的 GPU 資源；專家工程支持，由 Baseten 的前沿部署工程師提供大規模推理協助；以及企業級安全，符合 SOC 2 Type II、SOC 3 和 HIPAA 標準，支持自託管、審計日誌和 SSO 等功能。Baseten 推理棧採用 NVFP4、TensorRT-LLM、Dynamo 和 Baseten Speculation Engine 等組件，全部運行在 NVIDIA Blackwell GPU 上。

對於需要構建能看、能聽、能推理的智能體的開發者，Nemotron 3 Nano Omni 提供了一個生產就緒的開源基礎。該模型能夠處理音頻、視頻、圖像和文檔等多模態輸入，並在一次推理中完成統一推理。用户可以在 Baseten 上部署該模型以進行可擴展的多模態推理，或聯繫 Baseten 工程師瞭解更多關於性能、規模、安全性和靈活性的企業級功能，包括自託管能力。