最新開放工件(#22):Zyphra、Cohere 和 Poolside 拓展生態系統廣度
本文評估了開放模型生態系統的多樣性趨勢,分析了不同組織(純模型製造商、大型科技公司、產品公司)發佈開源模型的動機,並介紹了 NVIDIA、Cohere、Zyphra、Poolside 等公司的最新模型發佈。
開放模型生態系統正變得越來越多樣化,越來越多的組織發佈各種模型。一年前,開放工件和開放模型領域主要由少數(中國)參與者主導。現在,這一格局已經改變,我們越來越多地關注全球各地的利基公司。
雖然很難確切瞭解這些公司的動機,但我們可以大致觀察到以下類別:
“純”模型製造商:這些公司的目標是訓練前沿或接近前沿的模型,包括中國的 DeepSeek、Zhipu、Minimax,以及西方的 Poolside、Arcee、Zyphra。主權 AI 參與者(如 Cohere、Sovereign、Mistral、Trillion Labs)也越來越多。最近的 Mythos 事件喚醒了一些政策制定者,可能引發對主權模型訓練的興趣。
大型科技公司:對於阿里巴巴(Qwen)、谷歌(Gemma)以及 NVIDIA 等公司,動機更加多樣。阿里巴巴通過發佈模型來推銷其閉源模型,而 NVIDIA 則受益於繁榮的開放模型生態系統,這增加了對其 GPU 的需求。這種既得利益與 Llama 時代不同,那時開源動因尚不明確。
產品公司:JetBrains、Zed、Krea、Photoroom 等公司主要銷售以 AI 為核心的產品。它們訓練高度專業化的小型模型以滿足產品需求,開源這些模型權重不會損害其利潤。
這種製造者和模型的多樣性支持了一個假設:更多公司會發展出長尾模型,而追逐絕對開放前沿的公司數量將減少。
並非每次模型發佈都完全符合這些類別,但更廣泛的點是,開放模型開發並非由單一類型的參與者或動機驅動。這種多樣性是開放生態系統的優勢之一,體現在模型發佈的技術報告中,這些報告重複使用其他開放模型發佈的訓練方法、架構選擇和數據。
試圖減緩或禁止這個生態系統不僅是徒勞的(歷史已證明),而且不安全且反自由。這種限制會將 AI 開發和集中化,最終危及外界自由採用這一重要技術的能力。
我們的精選
- NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16(nvidia):Nemotron 系列的大版本,使用 LatentMoE 比同類模型更快。絕大多數數據是開源的,且 NVIDIA 採用專為模型權重和數據定製的 OpenMDW 許可證,放棄了自定義許可證。
- command-a-plus-05-2026-bf16(CohereLabs):Cohere 發佈了其旗艦模型 Command A+,採用 Apache 2.0 許可證。之前的版本為非商業許可,此次變更受歡迎。Command A+ 結合了多模態、多語言和智能體能力,為 218B-A25B MoE,可在單張 B200(4-bit)上使用。
- GLM-5.2(zai-org):本期的重頭戲,我們在單獨博客中報道過。該模型令人印象深刻,日常使用與最佳閉源模型相比差距不大。有趣的是,發佈後的下載量與 GLM-5 大致相當。
- ZAYA1-74B-preview(Zyphra):Zyphra 使用 AMD GPU 訓練,以有趣架構選擇的技術報告聞名。發佈了新模型,包括 74B-A4B MoE 和 8B-A0.6B MoE(技術報告)。
- Laguna-M.1(poolside):Poolside 也以 Apache 2.0 發佈了旗艦模型,並承諾未來繼續開源。
模型
通用
- Kimi-K2.7-Code(moonshotai):專注於 token 效率的更新。
- Step-3.7-Flash(stepfun-ai):在數學方面特別強的更新。
- Nemotron-Labs-Diffusion-14B(nvidia):實驗模型,支持自迴歸、擴散和自推測三種模式,適用於不同用例。