Together AI 在 Day 0 向開發者推出 NVIDIA Nemotron 3 Nano Omni
NVIDIA Nemotron 3 Nano Omni 現已登陸 Together AI 平臺。這是一個單一開放模型,能夠同時推理影片、影像、音訊和文本,專為大規模智慧體工作負載而設計。Together AI 透過其研究最佳化、託管基礎設施和安全 API,提供了部署該模型的最快路徑。
Together AI 宣佈在其平臺上正式上線 NVIDIA Nemotron 3 Nano Omni,這是一款面向開發者的大型語言模型,專為多模態推理構建。該模型能夠同時處理影片、影像、音訊和文本,無需像傳統系統那樣透過多個模型拼接來實現多模態理解。Nemotron 3 Nano Omni 採用了混合 Mamba-Transformer 混合專家(MoE)架構,總引數量為 300 億,但每 token 僅啟用約 30 億引數。其創新之處在於支援多 token 預測(MTP),即單次前向傳播中可同時生成多個未來 token。Together AI 聲稱,其推理棧已針對這類模型進行最佳化,透過 FlashAttention-4 等研究突破,在 NVIDIA Blackwell 硬體上相比 cuDNN 實現了高達 1.3 倍的加速。Together AI 強調其平臺為智慧體工作負載提供了三大核心優勢。首先,其研究最佳化能夠充分挖掘模型架構的潛力,保持高吞吐量和低延遲。其次,託管基礎設施專為生產級推理設計,即使在流量峰值和長上下文任務中也能保證穩定效能。最後,安全且開發者友好的 API 讓整合變得簡單,同時確保資料安全。該模型的應用場景廣泛:客戶服務智慧體可同時理解通話錄音、螢幕記錄和政策文件;金融分析師智慧體可推理財報電話會議音訊、簡報影片和證券檔案;計算機使用智慧體可透過螢幕記錄感知介面、理解指令並驗證操作。任何需要多模型堆疊的應用現在都有了更簡潔的生產路徑。Nemotron 3 Nano Omni 完全開放,包括權重、資料和後訓練配方,開發者可在雲端、本地或離線環境部署,完全控制資料,無模型鎖定。Together AI 已將其納入模型庫,開發者可立即開始使用。Together AI 的 Dedicated Inference 服務為執行該模型提供了最佳效能,確保低延遲和高吞吐量。對於希望構建智慧體應用的開發者來說,Nemotron 3 Nano Omni 是一個重要的里程碑,它簡化了多模態推理的複雜性,使得在一個統一框架內處理多種資料型別成為可能。隨著 AI 向更自主、更感知的方向發展,這種模型將成為新一代應用的基礎。