2026-06-04 21:50 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

NVIDIA Nemotron 3 Ultra 发布：Nemotron 3.x 系列来了！

Nemotron 3 Ultra 是一种混合 Mamba-Transformer 模型，专为长时间运行的代理设计，通过用 Mamba 层替换大部分注意力机制，实现高达 5 倍的推理速度提升和 30% 的成本降低。该模型完全开源，使代理能够高效完成冗长任务而不会变慢。

来源Baseten Blog

NVIDIA 近日发布了 Nemotron 3 Ultra，这是一款专为长时间运行的自主代理设计的混合专家（MoE）语言模型，拥有 5500 亿总参数（每 token 活跃参数 550 亿）。与现有的大多数模型不同，Nemotron 3 Ultra 采用了一种创新的混合架构，大部分层为 Mamba 层（状态空间模型），仅保留少部分注意力层。这种设计解决了 Transformer 模型中注意力机制随上下文长度二次增长的问题，使得代理在长任务中不会变慢。

在传统的 Transformer 模型中，随着上下文不断累积，每个步骤的计算量呈二次增长，导致代理在运行数百步后变得极其缓慢。而 Mamba 层通过维护一个固定大小的状态，使得每一步的成本保持恒定。Nemotron 3 Ultra 巧妙地将两者结合：Mamba 层负责处理大部分上下文，保证速度；注意力层则用于需要精确回溯的场景。这种组合使得代理在第 3 步和第 300 步的速度几乎相同。

据 NVIDIA 报告，与同类开放前沿模型相比，Nemotron 3 Ultra 在长时间运行的代理工作流中实现了高达 5 倍的推理速度提升和 30% 的成本降低。该模型完全开源，包括模型权重、训练数据和配方均以 NVIDIA 开放模型许可发布。NVIDIA 使用强化学习在多种代理环境中进行了后训练，使模型能够更好地适应代理循环而非单次对话。

Nemotron 3 Ultra 的应用场景广泛，尤其适合需要大量步骤的复杂任务。例如，代码智能体、深度研究（搜索和综合数百个来源）、企业工作流（全天候的持久化工具调用循环）、芯片设计（电子设计自动化中的 RTL 生成和验证）等。在这些场景中，代理需要处理不断增长的上下文，而 Nemotron 的线性成本特性使其成为理想选择。

除了核心的 Nemotron 3 Ultra，NVIDIA 还发布了两个附加模型：Nemotron 3.5 ASR（支持 40 种语言地区的流式语音识别，延迟可配置）和 Nemotron 3.5 Content Safety（用于文本和图像的多模态安全审核）。这些模型已在 Baseten 上提供，可通过 OpenAI 兼容的端点访问。Nemotron 3 Ultra 的 1200 亿参数版本 Nemotron 3 Super 也已上线，适合短任务或对延迟敏感的单次调用。