最新开放工件(#22):Zyphra、Cohere 和 Poolside 拓展生态系统广度
本文评估了开放模型生态系统的多样性趋势,分析了不同组织(纯模型制造商、大型科技公司、产品公司)发布开源模型的动机,并介绍了 NVIDIA、Cohere、Zyphra、Poolside 等公司的最新模型发布。
开放模型生态系统正变得越来越多样化,越来越多的组织发布各种模型。一年前,开放工件和开放模型领域主要由少数(中国)参与者主导。现在,这一格局已经改变,我们越来越多地关注全球各地的利基公司。
虽然很难确切了解这些公司的动机,但我们可以大致观察到以下类别:
“纯”模型制造商:这些公司的目标是训练前沿或接近前沿的模型,包括中国的 DeepSeek、Zhipu、Minimax,以及西方的 Poolside、Arcee、Zyphra。主权 AI 参与者(如 Cohere、Sovereign、Mistral、Trillion Labs)也越来越多。最近的 Mythos 事件唤醒了一些政策制定者,可能引发对主权模型训练的兴趣。
大型科技公司:对于阿里巴巴(Qwen)、谷歌(Gemma)以及 NVIDIA 等公司,动机更加多样。阿里巴巴通过发布模型来推销其闭源模型,而 NVIDIA 则受益于繁荣的开放模型生态系统,这增加了对其 GPU 的需求。这种既得利益与 Llama 时代不同,那时开源动因尚不明确。
产品公司:JetBrains、Zed、Krea、Photoroom 等公司主要销售以 AI 为核心的产品。它们训练高度专业化的小型模型以满足产品需求,开源这些模型权重不会损害其利润。
这种制造者和模型的多样性支持了一个假设:更多公司会发展出长尾模型,而追逐绝对开放前沿的公司数量将减少。
并非每次模型发布都完全符合这些类别,但更广泛的点是,开放模型开发并非由单一类型的参与者或动机驱动。这种多样性是开放生态系统的优势之一,体现在模型发布的技术报告中,这些报告重复使用其他开放模型发布的训练方法、架构选择和数据。
试图减缓或禁止这个生态系统不仅是徒劳的(历史已证明),而且不安全且反自由。这种限制会将 AI 开发和集中化,最终危及外界自由采用这一重要技术的能力。
我们的精选
- NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16(nvidia):Nemotron 系列的大版本,使用 LatentMoE 比同类模型更快。绝大多数数据是开源的,且 NVIDIA 采用专为模型权重和数据定制的 OpenMDW 许可证,放弃了自定义许可证。
- command-a-plus-05-2026-bf16(CohereLabs):Cohere 发布了其旗舰模型 Command A+,采用 Apache 2.0 许可证。之前的版本为非商业许可,此次变更受欢迎。Command A+ 结合了多模态、多语言和智能体能力,为 218B-A25B MoE,可在单张 B200(4-bit)上使用。
- GLM-5.2(zai-org):本期的重头戏,我们在单独博客中报道过。该模型令人印象深刻,日常使用与最佳闭源模型相比差距不大。有趣的是,发布后的下载量与 GLM-5 大致相当。
- ZAYA1-74B-preview(Zyphra):Zyphra 使用 AMD GPU 训练,以有趣架构选择的技术报告闻名。发布了新模型,包括 74B-A4B MoE 和 8B-A0.6B MoE(技术报告)。
- Laguna-M.1(poolside):Poolside 也以 Apache 2.0 发布了旗舰模型,并承诺未来继续开源。
模型
通用
- Kimi-K2.7-Code(moonshotai):专注于 token 效率的更新。
- Step-3.7-Flash(stepfun-ai):在数学方面特别强的更新。
- Nemotron-Labs-Diffusion-14B(nvidia):实验模型,支持自回归、扩散和自推测三种模式,适用于不同用例。