2026-02-25 21:26 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

开源大模型之春：2026年1-2月十大架构盘点

本文对2026年1月至2月期间发布的十大开源大语言模型进行了架构比较和分析，涵盖Arcee Trinity、Kimi K2.5、Step 3.5 Flash、Qwen3-Coder-Next、GLM-5、MiniMax M2.5、Nanbeige 4.1、Qwen3.5、Ling 2.5以及Tiny Aya，并更新了Sarvam模型。文章重点讨论了混合专家架构、注意力机制创新（如门控注意力、门控DeltaNet、闪电注意力）以及多令牌预测等技术趋势。

来源Ahead of AI (Sebastian Raschka)作者: Sebastian Raschka, PhD

如果你最近在跟上开源大模型的发布时感到有些吃力，那么这篇文章将帮你梳理主要趋势。

本文按时间顺序介绍了2026年1月至2月期间的十大重要发布，重点关注架构的异同。

1. Arcee AI的Trinity Large（1月27日）

Arcee AI是一家美国初创公司，发布了400B参数的混合专家模型Trinity Large，并提供了两个较小变体（Trinity Mini和Trinity Nano）。该模型采用了滑动窗口注意力（3:1局部全局比例）、QK-Norm、无位置嵌入（NoPE）和门控注意力机制。其MoE架构与DeepSeek类似，但专家数量更粗放，以提高推理吞吐量。模型还使用了深度缩放RMSNorm，残差更新从较小值开始并逐渐增长。

2. Moonshot AI的Kimi K2.5（1月27日）

Kimi K2.5是一个1万亿参数的多模态模型，基于Kimi K2并集成了视觉支持。它采用早期融合方法，在预训练早期就引入视觉标记。该架构本质上是DeepSeek V3的放大版，但增加了多模态能力，性能与当时领先的专有模型相当。

3. StepFun的Step 3.5 Flash（2月1日）

Step 3.5 Flash是一个196B参数的MoE模型，每个token激活11B参数。尽管比DeepSeek V3.2小得多，但性能略有领先，吞吐量更高（100 tokens/s对比33 tokens/s）。它采用了门控注意力和多令牌预测（MTP-3），即同时预测三个未来token，这在训练和推理中都有使用。

4. Qwen3-Coder-Next（2月3日）

这是一个80B参数的编码专用模型，每个token激活3B参数，在编码任务上超越了更大模型。其架构与Qwen3-Next相同，采用门控DeltaNet和门控注意力混合（3:1比例）。门控DeltaNet是一种线性注意力变体，可提高长上下文的内存效率。该模型原生支持262K token上下文长度。

5. z.AI的GLM-5（2月12日）

GLM-5是一个744B参数的MoE模型，每个token激活40B参数，是GLM-4.7的重大升级。它采用了DeepSeek的多头潜在注意力和稀疏注意力，以降低长上下文推理成本。总参数的增加主要来自专家数量（从160个增加到256个）和层维度。与GLM-4.7相比，变压器层数从92层减少到78层。

6. MiniMax M2.5（2月12日）

MiniMax M2.5是一个230B参数的MoE模型，设计经典，仅使用分组查询注意力（GQA），没有其他效率提升。尽管参数较少，但在SWE-Bench Verified编码基准上表现强劲，成为OpenRouter上最受欢迎的开源模型之一。

7. Nanbeige 4.1 3B（2月13日）

这是一个3B参数的小型模型，类似Llama 3.2 3B架构，但未使用权重绑定。它针对设备端应用，在基准测试中大幅超越Qwen3。其性能提升主要来自监督微调和强化学习后训练。

8. Qwen3.5（2月15日）

Qwen3.5是一个397B参数的MoE模型（每个token激活17B参数），是Qwen系列的最新版本。它采用了Qwen3-Next的混合注意力架构，并增加了多模态支持。其性能与GLM-5和MiniMax M2.5相当。

9. Ant Group的Ling 2.5 1T（2月16日）

Ling 2.5是一个1万亿参数模型，使用闪电注意力（一种循环线性注意力变体）和多头潜在注意力。它不追求绝对基准领先，但在长上下文中效率极高，与Kimi K2相比，在32K token时吞吐量提升3.5倍。

10. Cohere的Tiny Aya（2月17日）

Tiny Aya是一个3.35B参数的多语言模型，专注于非商业使用。它的架构采用并行Transformer块，同时计算注意力和MLP，以提高计算吞吐量。它放弃了QK-Norm以改善长上下文表现。

更新：Sarvam 30B和105B（3月6日）

Sarvam模型来自印度，有两个版本：30B使用GQA，105B使用MLA。105B模型在代理推理方面表现突出，甚至优于DeepSeek R1。较小版本在编码上稍逊于Nemotron 3 Nano，但具有更好的印度语言支持。

总结

2026年初的开源LLM发布展示了多种架构趋势：混合注意力（门控DeltaNet、闪电注意力）、多头潜在注意力、多令牌预测以及滑动窗口注意力。性能提升更多来自训练数据和配方，而非架构本身，但高效架构对于降低推理成本至关重要。