AI News HubLIVE
站内改写2 分钟阅读

NVIDIA Nemotron 3 Ultra 发布:Nemotron 3.x 系列来了!

Nemotron 3 Ultra 是一种混合 Mamba-Transformer 模型,专为长时间运行的代理设计,通过用 Mamba 层替换大部分注意力机制,实现高达 5 倍的推理速度提升和 30% 的成本降低。该模型完全开源,使代理能够高效完成冗长任务而不会变慢。

NVIDIA 近日发布了 Nemotron 3 Ultra,这是一款专为长时间运行的自主代理设计的混合专家(MoE)语言模型,拥有 5500 亿总参数(每 token 活跃参数 550 亿)。与现有的大多数模型不同,Nemotron 3 Ultra 采用了一种创新的混合架构,大部分层为 Mamba 层(状态空间模型),仅保留少部分注意力层。这种设计解决了 Transformer 模型中注意力机制随上下文长度二次增长的问题,使得代理在长任务中不会变慢。

在传统的 Transformer 模型中,随着上下文不断累积,每个步骤的计算量呈二次增长,导致代理在运行数百步后变得极其缓慢。而 Mamba 层通过维护一个固定大小的状态,使得每一步的成本保持恒定。Nemotron 3 Ultra 巧妙地将两者结合:Mamba 层负责处理大部分上下文,保证速度;注意力层则用于需要精确回溯的场景。这种组合使得代理在第 3 步和第 300 步的速度几乎相同。

据 NVIDIA 报告,与同类开放前沿模型相比,Nemotron 3 Ultra 在长时间运行的代理工作流中实现了高达 5 倍的推理速度提升和 30% 的成本降低。该模型完全开源,包括模型权重、训练数据和配方均以 NVIDIA 开放模型许可发布。NVIDIA 使用强化学习在多种代理环境中进行了后训练,使模型能够更好地适应代理循环而非单次对话。

Nemotron 3 Ultra 的应用场景广泛,尤其适合需要大量步骤的复杂任务。例如,代码智能体、深度研究(搜索和综合数百个来源)、企业工作流(全天候的持久化工具调用循环)、芯片设计(电子设计自动化中的 RTL 生成和验证)等。在这些场景中,代理需要处理不断增长的上下文,而 Nemotron 的线性成本特性使其成为理想选择。

除了核心的 Nemotron 3 Ultra,NVIDIA 还发布了两个附加模型:Nemotron 3.5 ASR(支持 40 种语言地区的流式语音识别,延迟可配置)和 Nemotron 3.5 Content Safety(用于文本和图像的多模态安全审核)。这些模型已在 Baseten 上提供,可通过 OpenAI 兼容的端点访问。Nemotron 3 Ultra 的 1200 亿参数版本 Nemotron 3 Super 也已上线,适合短任务或对延迟敏感的单次调用。