2026-02-25 21:26 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

開源大模型之春：2026年1-2月十大架構盤點

本文對2026年1月至2月期間發佈的十大開源大語言模型進行了架構比較和分析，涵蓋Arcee Trinity、Kimi K2.5、Step 3.5 Flash、Qwen3-Coder-Next、GLM-5、MiniMax M2.5、Nanbeige 4.1、Qwen3.5、Ling 2.5以及Tiny Aya，並更新了Sarvam模型。文章重點討論了混合專家架構、注意力機制創新（如門控注意力、門控DeltaNet、閃電注意力）以及多令牌預測等技術趨勢。

來源Ahead of AI (Sebastian Raschka)作者: Sebastian Raschka, PhD

如果你最近在跟上開源大模型的發佈時感到有些吃力，那麼這篇文章將幫你梳理主要趨勢。

本文按時間順序介紹了2026年1月至2月期間的十大重要發佈，重點關注架構的異同。

1. Arcee AI的Trinity Large（1月27日）

Arcee AI是一家美國初創公司，發佈了400B參數的混合專家模型Trinity Large，並提供了兩個較小變體（Trinity Mini和Trinity Nano）。該模型採用了滑動窗口注意力（3:1局部全局比例）、QK-Norm、無位置嵌入（NoPE）和門控注意力機制。其MoE架構與DeepSeek類似，但專家數量更粗放，以提高推理吞吐量。模型還使用了深度縮放RMSNorm，殘差更新從較小值開始並逐漸增長。

2. Moonshot AI的Kimi K2.5（1月27日）

Kimi K2.5是一個1萬億參數的多模態模型，基於Kimi K2並集成了視覺支持。它採用早期融合方法，在預訓練早期就引入視覺標記。該架構本質上是DeepSeek V3的放大版，但增加了多模態能力，性能與當時領先的專有模型相當。

3. StepFun的Step 3.5 Flash（2月1日）

Step 3.5 Flash是一個196B參數的MoE模型，每個token激活11B參數。儘管比DeepSeek V3.2小得多，但性能略有領先，吞吐量更高（100 tokens/s對比33 tokens/s）。它採用了門控注意力和多令牌預測（MTP-3），即同時預測三個未來token，這在訓練和推理中都有使用。

4. Qwen3-Coder-Next（2月3日）

這是一個80B參數的編碼專用模型，每個token激活3B參數，在編碼任務上超越了更大模型。其架構與Qwen3-Next相同，採用門控DeltaNet和門控注意力混合（3:1比例）。門控DeltaNet是一種線性注意力變體，可提高長上下文的內存效率。該模型原生支持262K token上下文長度。

5. z.AI的GLM-5（2月12日）

GLM-5是一個744B參數的MoE模型，每個token激活40B參數，是GLM-4.7的重大升級。它採用了DeepSeek的多頭潛在注意力和稀疏注意力，以降低長上下文推理成本。總參數的增加主要來自專家數量（從160個增加到256個）和層維度。與GLM-4.7相比，變壓器層數從92層減少到78層。

6. MiniMax M2.5（2月12日）

MiniMax M2.5是一個230B參數的MoE模型，設計經典，僅使用分組查詢注意力（GQA），沒有其他效率提升。儘管參數較少，但在SWE-Bench Verified編碼基準上表現強勁，成為OpenRouter上最受歡迎的開源模型之一。

7. Nanbeige 4.1 3B（2月13日）

這是一個3B參數的小型模型，類似Llama 3.2 3B架構，但未使用權重綁定。它針對設備端應用，在基準測試中大幅超越Qwen3。其性能提升主要來自監督微調和強化學習後訓練。

8. Qwen3.5（2月15日）

Qwen3.5是一個397B參數的MoE模型（每個token激活17B參數），是Qwen系列的最新版本。它採用了Qwen3-Next的混合注意力架構，並增加了多模態支持。其性能與GLM-5和MiniMax M2.5相當。

9. Ant Group的Ling 2.5 1T（2月16日）

Ling 2.5是一個1萬億參數模型，使用閃電注意力（一種循環線性注意力變體）和多頭潛在注意力。它不追求絕對基準領先，但在長上下文中效率極高，與Kimi K2相比，在32K token時吞吐量提升3.5倍。

10. Cohere的Tiny Aya（2月17日）

Tiny Aya是一個3.35B參數的多語言模型，專注於非商業使用。它的架構採用並行Transformer塊，同時計算注意力和MLP，以提高計算吞吐量。它放棄了QK-Norm以改善長上下文表現。

更新：Sarvam 30B和105B（3月6日）

Sarvam模型來自印度，有兩個版本：30B使用GQA，105B使用MLA。105B模型在代理推理方面表現突出，甚至優於DeepSeek R1。較小版本在編碼上稍遜於Nemotron 3 Nano，但具有更好的印度語言支持。

總結

2026年初的開源LLM發佈展示了多種架構趨勢：混合注意力（門控DeltaNet、閃電注意力）、多頭潛在注意力、多令牌預測以及滑動窗口注意力。性能提升更多來自訓練數據和配方，而非架構本身，但高效架構對於降低推理成本至關重要。