開源大模型之春:2026年1-2月十大架構盤點
本文對2026年1月至2月期間發佈的十大開源大語言模型進行了架構比較和分析,涵蓋Arcee Trinity、Kimi K2.5、Step 3.5 Flash、Qwen3-Coder-Next、GLM-5、MiniMax M2.5、Nanbeige 4.1、Qwen3.5、Ling 2.5以及Tiny Aya,並更新了Sarvam模型。文章重點討論了混合專家架構、注意力機制創新(如門控注意力、門控DeltaNet、閃電注意力)以及多令牌預測等技術趨勢。
如果你最近在跟上開源大模型的發佈時感到有些吃力,那麼這篇文章將幫你梳理主要趨勢。
本文按時間順序介紹了2026年1月至2月期間的十大重要發佈,重點關注架構的異同。
1. Arcee AI的Trinity Large(1月27日)
Arcee AI是一家美國初創公司,發佈了400B參數的混合專家模型Trinity Large,並提供了兩個較小變體(Trinity Mini和Trinity Nano)。該模型採用了滑動窗口注意力(3:1局部全局比例)、QK-Norm、無位置嵌入(NoPE)和門控注意力機制。其MoE架構與DeepSeek類似,但專家數量更粗放,以提高推理吞吐量。模型還使用了深度縮放RMSNorm,殘差更新從較小值開始並逐漸增長。
2. Moonshot AI的Kimi K2.5(1月27日)
Kimi K2.5是一個1萬億參數的多模態模型,基於Kimi K2並集成了視覺支持。它採用早期融合方法,在預訓練早期就引入視覺標記。該架構本質上是DeepSeek V3的放大版,但增加了多模態能力,性能與當時領先的專有模型相當。
3. StepFun的Step 3.5 Flash(2月1日)
Step 3.5 Flash是一個196B參數的MoE模型,每個token激活11B參數。儘管比DeepSeek V3.2小得多,但性能略有領先,吞吐量更高(100 tokens/s對比33 tokens/s)。它採用了門控注意力和多令牌預測(MTP-3),即同時預測三個未來token,這在訓練和推理中都有使用。
4. Qwen3-Coder-Next(2月3日)
這是一個80B參數的編碼專用模型,每個token激活3B參數,在編碼任務上超越了更大模型。其架構與Qwen3-Next相同,採用門控DeltaNet和門控注意力混合(3:1比例)。門控DeltaNet是一種線性注意力變體,可提高長上下文的內存效率。該模型原生支持262K token上下文長度。
5. z.AI的GLM-5(2月12日)
GLM-5是一個744B參數的MoE模型,每個token激活40B參數,是GLM-4.7的重大升級。它採用了DeepSeek的多頭潛在注意力和稀疏注意力,以降低長上下文推理成本。總參數的增加主要來自專家數量(從160個增加到256個)和層維度。與GLM-4.7相比,變壓器層數從92層減少到78層。
6. MiniMax M2.5(2月12日)
MiniMax M2.5是一個230B參數的MoE模型,設計經典,僅使用分組查詢注意力(GQA),沒有其他效率提升。儘管參數較少,但在SWE-Bench Verified編碼基準上表現強勁,成為OpenRouter上最受歡迎的開源模型之一。
7. Nanbeige 4.1 3B(2月13日)
這是一個3B參數的小型模型,類似Llama 3.2 3B架構,但未使用權重綁定。它針對設備端應用,在基準測試中大幅超越Qwen3。其性能提升主要來自監督微調和強化學習後訓練。
8. Qwen3.5(2月15日)
Qwen3.5是一個397B參數的MoE模型(每個token激活17B參數),是Qwen系列的最新版本。它採用了Qwen3-Next的混合注意力架構,並增加了多模態支持。其性能與GLM-5和MiniMax M2.5相當。
9. Ant Group的Ling 2.5 1T(2月16日)
Ling 2.5是一個1萬億參數模型,使用閃電注意力(一種循環線性注意力變體)和多頭潛在注意力。它不追求絕對基準領先,但在長上下文中效率極高,與Kimi K2相比,在32K token時吞吐量提升3.5倍。
10. Cohere的Tiny Aya(2月17日)
Tiny Aya是一個3.35B參數的多語言模型,專注於非商業使用。它的架構採用並行Transformer塊,同時計算注意力和MLP,以提高計算吞吐量。它放棄了QK-Norm以改善長上下文表現。
更新:Sarvam 30B和105B(3月6日)
Sarvam模型來自印度,有兩個版本:30B使用GQA,105B使用MLA。105B模型在代理推理方面表現突出,甚至優於DeepSeek R1。較小版本在編碼上稍遜於Nemotron 3 Nano,但具有更好的印度語言支持。
總結
2026年初的開源LLM發佈展示了多種架構趨勢:混合注意力(門控DeltaNet、閃電注意力)、多頭潛在注意力、多令牌預測以及滑動窗口注意力。性能提升更多來自訓練數據和配方,而非架構本身,但高效架構對於降低推理成本至關重要。