2026-04-28 08:00 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

Together AI 在 Day 0 向开发者推出 NVIDIA Nemotron 3 Nano Omni

NVIDIA Nemotron 3 Nano Omni 现已登陆 Together AI 平台。这是一个单一开放模型，能够同时推理视频、图像、音频和文本，专为大规模智能体工作负载而设计。Together AI 通过其研究优化、托管基础设施和安全 API，提供了部署该模型的最快路径。

来源Together AI Blog

Together AI 宣布在其平台上正式上线 NVIDIA Nemotron 3 Nano Omni，这是一款面向开发者的大型语言模型，专为多模态推理构建。该模型能够同时处理视频、图像、音频和文本，无需像传统系统那样通过多个模型拼接来实现多模态理解。Nemotron 3 Nano Omni 采用了混合 Mamba-Transformer 混合专家（MoE）架构，总参数量为 300 亿，但每 token 仅激活约 30 亿参数。其创新之处在于支持多 token 预测（MTP），即单次前向传播中可同时生成多个未来 token。Together AI 声称，其推理栈已针对这类模型进行优化，通过 FlashAttention-4 等研究突破，在 NVIDIA Blackwell 硬件上相比 cuDNN 实现了高达 1.3 倍的加速。Together AI 强调其平台为智能体工作负载提供了三大核心优势。首先，其研究优化能够充分挖掘模型架构的潜力，保持高吞吐量和低延迟。其次，托管基础设施专为生产级推理设计，即使在流量峰值和长上下文任务中也能保证稳定性能。最后，安全且开发者友好的 API 让集成变得简单，同时确保数据安全。该模型的應用场景广泛：客户服务智能体可同时理解通话录音、屏幕记录和政策文档；金融分析师智能体可推理财报电话会议音频、演示文稿视频和证券文件；计算机使用智能体可通过屏幕记录感知界面、理解指令并验证操作。任何需要多模型堆栈的应用现在都有了更简洁的生产路径。Nemotron 3 Nano Omni 完全开放，包括权重、数据和后训练配方，开发者可在云端、本地或离线环境部署，完全控制数据，无模型锁定。Together AI 已将其纳入模型库，开发者可立即开始使用。Together AI 的 Dedicated Inference 服务为运行该模型提供了最佳性能，确保低延迟和高吞吐量。对于希望构建智能体应用的开发者来说，Nemotron 3 Nano Omni 是一个重要的里程碑，它简化了多模态推理的复杂性，使得在一个统一框架内处理多种数据类型成为可能。随着 AI 向更自主、更感知的方向发展，这种模型将成为新一代应用的基础。