AI News HubLIVE
站內改寫2 分鐘閱讀

最新開放工件(#22):Zyphra、Cohere 和 Poolside 拓展生態系統廣度

本文評估了開放模型生態系統的多樣性趨勢,分析了不同組織(純模型製造商、大型科技公司、產品公司)釋出開源模型的動機,並介紹了 NVIDIA、Cohere、Zyphra、Poolside 等公司的最新模型釋出。

來源Interconnects (Nathan Lambert)作者: Florian Brand

開放模型生態系統正變得越來越多樣化,越來越多的組織釋出各種模型。一年前,開放工件和開放模型領域主要由少數(中國)參與者主導。現在,這一格局已經改變,我們越來越多地關注全球各地的利基公司。

雖然很難確切瞭解這些公司的動機,但我們可以大致觀察到以下類別:

“純”模型製造商:這些公司的目標是訓練前沿或接近前沿的模型,包括中國的 DeepSeek、Zhipu、Minimax,以及西方的 Poolside、Arcee、Zyphra。主權 AI 參與者(如 Cohere、Sovereign、Mistral、Trillion Labs)也越來越多。最近的 Mythos 事件喚醒了一些政策制定者,可能引發對主權模型訓練的興趣。

大型科技公司:對於阿里巴巴(Qwen)、谷歌(Gemma)以及 NVIDIA 等公司,動機更加多樣。阿里巴巴透過釋出模型來推銷其閉源模型,而 NVIDIA 則受益於繁榮的開放模型生態系統,這增加了對其 GPU 的需求。這種既得利益與 Llama 時代不同,那時開源動因尚不明確。

產品公司:JetBrains、Zed、Krea、Photoroom 等公司主要銷售以 AI 為核心的產品。它們訓練高度專業化的小型模型以滿足產品需求,開源這些模型權重不會損害其利潤。

這種製造者和模型的多樣性支援了一個假設:更多公司會發展出長尾模型,而追逐絕對開放前沿的公司數量將減少。

並非每次模型釋出都完全符合這些類別,但更廣泛的點是,開放模型開發並非由單一型別的參與者或動機驅動。這種多樣性是開放生態系統的優勢之一,體現在模型釋出的技術報告中,這些報告重複使用其他開放模型釋出的訓練方法、架構選擇和資料。

試圖減緩或禁止這個生態系統不僅是徒勞的(歷史已證明),而且不安全且反自由。這種限制會將 AI 開發和集中化,最終危及外界自由採用這一重要技術的能力。

我們的精選

  • NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16(nvidia):Nemotron 系列的大版本,使用 LatentMoE 比同類模型更快。絕大多數資料是開源的,且 NVIDIA 採用專為模型權重和資料定製的 OpenMDW 許可證,放棄了自定義許可證。
  • command-a-plus-05-2026-bf16(CohereLabs):Cohere 釋出了其旗艦模型 Command A+,採用 Apache 2.0 許可證。之前的版本為非商業許可,此次變更受歡迎。Command A+ 結合了多模態、多語言和智慧體能力,為 218B-A25B MoE,可在單張 B200(4-bit)上使用。
  • GLM-5.2(zai-org):本期的重頭戲,我們在單獨部落格中報道過。該模型令人印象深刻,日常使用與最佳閉源模型相比差距不大。有趣的是,釋出後的下載量與 GLM-5 大致相當。
  • ZAYA1-74B-preview(Zyphra):Zyphra 使用 AMD GPU 訓練,以有趣架構選擇的技術報告聞名。釋出了新模型,包括 74B-A4B MoE 和 8B-A0.6B MoE(技術報告)。
  • Laguna-M.1(poolside):Poolside 也以 Apache 2.0 釋出了旗艦模型,並承諾未來繼續開源。

模型

通用

  • Kimi-K2.7-Code(moonshotai):專注於 token 效率的更新。
  • Step-3.7-Flash(stepfun-ai):在數學方面特別強的更新。
  • Nemotron-Labs-Diffusion-14B(nvidia):實驗模型,支援自迴歸、擴散和自推測三種模式,適用於不同用例。
最新開放工件(#22):Zyphra、Cohere 和 Poolside 拓展生態系統廣度 | AI News Hub