AI News HubLIVE
站内改写1 分钟阅读

Together AI 在 Day 0 向开发者推出 NVIDIA Nemotron 3 Nano Omni

NVIDIA Nemotron 3 Nano Omni 现已登陆 Together AI 平台。这是一个单一开放模型,能够同时推理视频、图像、音频和文本,专为大规模智能体工作负载而设计。Together AI 通过其研究优化、托管基础设施和安全 API,提供了部署该模型的最快路径。

Together AI 宣布在其平台上正式上线 NVIDIA Nemotron 3 Nano Omni,这是一款面向开发者的大型语言模型,专为多模态推理构建。该模型能够同时处理视频、图像、音频和文本,无需像传统系统那样通过多个模型拼接来实现多模态理解。Nemotron 3 Nano Omni 采用了混合 Mamba-Transformer 混合专家(MoE)架构,总参数量为 300 亿,但每 token 仅激活约 30 亿参数。其创新之处在于支持多 token 预测(MTP),即单次前向传播中可同时生成多个未来 token。Together AI 声称,其推理栈已针对这类模型进行优化,通过 FlashAttention-4 等研究突破,在 NVIDIA Blackwell 硬件上相比 cuDNN 实现了高达 1.3 倍的加速。Together AI 强调其平台为智能体工作负载提供了三大核心优势。首先,其研究优化能够充分挖掘模型架构的潜力,保持高吞吐量和低延迟。其次,托管基础设施专为生产级推理设计,即使在流量峰值和长上下文任务中也能保证稳定性能。最后,安全且开发者友好的 API 让集成变得简单,同时确保数据安全。该模型的應用场景广泛:客户服务智能体可同时理解通话录音、屏幕记录和政策文档;金融分析师智能体可推理财报电话会议音频、演示文稿视频和证券文件;计算机使用智能体可通过屏幕记录感知界面、理解指令并验证操作。任何需要多模型堆栈的应用现在都有了更简洁的生产路径。Nemotron 3 Nano Omni 完全开放,包括权重、数据和后训练配方,开发者可在云端、本地或离线环境部署,完全控制数据,无模型锁定。Together AI 已将其纳入模型库,开发者可立即开始使用。Together AI 的 Dedicated Inference 服务为运行该模型提供了最佳性能,确保低延迟和高吞吐量。对于希望构建智能体应用的开发者来说,Nemotron 3 Nano Omni 是一个重要的里程碑,它简化了多模态推理的复杂性,使得在一个统一框架内处理多种数据类型成为可能。随着 AI 向更自主、更感知的方向发展,这种模型将成为新一代应用的基础。