2026-04-28 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Together AI 在 Day 0 向開發者推出 NVIDIA Nemotron 3 Nano Omni

NVIDIA Nemotron 3 Nano Omni 現已登陸 Together AI 平臺。這是一個單一開放模型，能夠同時推理影片、影像、音訊和文本，專為大規模智慧體工作負載而設計。Together AI 透過其研究最佳化、託管基礎設施和安全 API，提供了部署該模型的最快路徑。

來源Together AI Blog

Together AI 宣佈在其平臺上正式上線 NVIDIA Nemotron 3 Nano Omni，這是一款面向開發者的大型語言模型，專為多模態推理構建。該模型能夠同時處理影片、影像、音訊和文本，無需像傳統系統那樣透過多個模型拼接來實現多模態理解。Nemotron 3 Nano Omni 採用了混合 Mamba-Transformer 混合專家（MoE）架構，總引數量為 300 億，但每 token 僅啟用約 30 億引數。其創新之處在於支援多 token 預測（MTP），即單次前向傳播中可同時生成多個未來 token。Together AI 聲稱，其推理棧已針對這類模型進行最佳化，透過 FlashAttention-4 等研究突破，在 NVIDIA Blackwell 硬體上相比 cuDNN 實現了高達 1.3 倍的加速。Together AI 強調其平臺為智慧體工作負載提供了三大核心優勢。首先，其研究最佳化能夠充分挖掘模型架構的潛力，保持高吞吐量和低延遲。其次，託管基礎設施專為生產級推理設計，即使在流量峰值和長上下文任務中也能保證穩定效能。最後，安全且開發者友好的 API 讓整合變得簡單，同時確保資料安全。該模型的應用場景廣泛：客戶服務智慧體可同時理解通話錄音、螢幕記錄和政策文件；金融分析師智慧體可推理財報電話會議音訊、簡報影片和證券檔案；計算機使用智慧體可透過螢幕記錄感知介面、理解指令並驗證操作。任何需要多模型堆疊的應用現在都有了更簡潔的生產路徑。Nemotron 3 Nano Omni 完全開放，包括權重、資料和後訓練配方，開發者可在雲端、本地或離線環境部署，完全控制資料，無模型鎖定。Together AI 已將其納入模型庫，開發者可立即開始使用。Together AI 的 Dedicated Inference 服務為執行該模型提供了最佳效能，確保低延遲和高吞吐量。對於希望構建智慧體應用的開發者來說，Nemotron 3 Nano Omni 是一個重要的里程碑，它簡化了多模態推理的複雜性，使得在一個統一框架內處理多種資料型別成為可能。隨著 AI 向更自主、更感知的方向發展，這種模型將成為新一代應用的基礎。