2026-06-29 01:03 UTC+8站内改写2 分钟阅读更新: 2026-06-29 09:46 UTC+8

最新开放工件（#22）：Zyphra、Cohere 和 Poolside 拓展生态系统广度

本文评估了开放模型生态系统的多样性趋势，分析了不同组织（纯模型制造商、大型科技公司、产品公司）发布开源模型的动机，并介绍了 NVIDIA、Cohere、Zyphra、Poolside 等公司的最新模型发布。

来源Interconnects (Nathan Lambert)作者: Florian Brand

开放模型生态系统正变得越来越多样化，越来越多的组织发布各种模型。一年前，开放工件和开放模型领域主要由少数（中国）参与者主导。现在，这一格局已经改变，我们越来越多地关注全球各地的利基公司。

虽然很难确切了解这些公司的动机，但我们可以大致观察到以下类别：

“纯”模型制造商：这些公司的目标是训练前沿或接近前沿的模型，包括中国的 DeepSeek、Zhipu、Minimax，以及西方的 Poolside、Arcee、Zyphra。主权 AI 参与者（如 Cohere、Sovereign、Mistral、Trillion Labs）也越来越多。最近的 Mythos 事件唤醒了一些政策制定者，可能引发对主权模型训练的兴趣。

大型科技公司：对于阿里巴巴（Qwen）、谷歌（Gemma）以及 NVIDIA 等公司，动机更加多样。阿里巴巴通过发布模型来推销其闭源模型，而 NVIDIA 则受益于繁荣的开放模型生态系统，这增加了对其 GPU 的需求。这种既得利益与 Llama 时代不同，那时开源动因尚不明确。

产品公司：JetBrains、Zed、Krea、Photoroom 等公司主要销售以 AI 为核心的产品。它们训练高度专业化的小型模型以满足产品需求，开源这些模型权重不会损害其利润。

这种制造者和模型的多样性支持了一个假设：更多公司会发展出长尾模型，而追逐绝对开放前沿的公司数量将减少。

并非每次模型发布都完全符合这些类别，但更广泛的点是，开放模型开发并非由单一类型的参与者或动机驱动。这种多样性是开放生态系统的优势之一，体现在模型发布的技术报告中，这些报告重复使用其他开放模型发布的训练方法、架构选择和数据。

试图减缓或禁止这个生态系统不仅是徒劳的（历史已证明），而且不安全且反自由。这种限制会将 AI 开发和集中化，最终危及外界自由采用这一重要技术的能力。

我们的精选

NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16（nvidia）：Nemotron 系列的大版本，使用 LatentMoE 比同类模型更快。绝大多数数据是开源的，且 NVIDIA 采用专为模型权重和数据定制的 OpenMDW 许可证，放弃了自定义许可证。

command-a-plus-05-2026-bf16（CohereLabs）：Cohere 发布了其旗舰模型 Command A+，采用 Apache 2.0 许可证。之前的版本为非商业许可，此次变更受欢迎。Command A+ 结合了多模态、多语言和智能体能力，为 218B-A25B MoE，可在单张 B200（4-bit）上使用。

GLM-5.2（zai-org）：本期的重头戏，我们在单独博客中报道过。该模型令人印象深刻，日常使用与最佳闭源模型相比差距不大。有趣的是，发布后的下载量与 GLM-5 大致相当。

ZAYA1-74B-preview（Zyphra）：Zyphra 使用 AMD GPU 训练，以有趣架构选择的技术报告闻名。发布了新模型，包括 74B-A4B MoE 和 8B-A0.6B MoE（技术报告）。

Laguna-M.1（poolside）：Poolside 也以 Apache 2.0 发布了旗舰模型，并承诺未来继续开源。

模型

通用

Kimi-K2.7-Code（moonshotai）：专注于 token 效率的更新。
Step-3.7-Flash（stepfun-ai）：在数学方面特别强的更新。
Nemotron-Labs-Diffusion-14B（nvidia）：实验模型，支持自回归、扩散和自推测三种模式，适用于不同用例。