AI News HubLIVE
站内改写2 分钟阅读

开源大模型之春:2026年1-2月十大架构盘点

本文对2026年1月至2月期间发布的十大开源大语言模型进行了架构比较和分析,涵盖Arcee Trinity、Kimi K2.5、Step 3.5 Flash、Qwen3-Coder-Next、GLM-5、MiniMax M2.5、Nanbeige 4.1、Qwen3.5、Ling 2.5以及Tiny Aya,并更新了Sarvam模型。文章重点讨论了混合专家架构、注意力机制创新(如门控注意力、门控DeltaNet、闪电注意力)以及多令牌预测等技术趋势。

来源Ahead of AI (Sebastian Raschka)作者: Sebastian Raschka, PhD

如果你最近在跟上开源大模型的发布时感到有些吃力,那么这篇文章将帮你梳理主要趋势。

本文按时间顺序介绍了2026年1月至2月期间的十大重要发布,重点关注架构的异同。

1. Arcee AI的Trinity Large(1月27日)

Arcee AI是一家美国初创公司,发布了400B参数的混合专家模型Trinity Large,并提供了两个较小变体(Trinity Mini和Trinity Nano)。该模型采用了滑动窗口注意力(3:1局部全局比例)、QK-Norm、无位置嵌入(NoPE)和门控注意力机制。其MoE架构与DeepSeek类似,但专家数量更粗放,以提高推理吞吐量。模型还使用了深度缩放RMSNorm,残差更新从较小值开始并逐渐增长。

2. Moonshot AI的Kimi K2.5(1月27日)

Kimi K2.5是一个1万亿参数的多模态模型,基于Kimi K2并集成了视觉支持。它采用早期融合方法,在预训练早期就引入视觉标记。该架构本质上是DeepSeek V3的放大版,但增加了多模态能力,性能与当时领先的专有模型相当。

3. StepFun的Step 3.5 Flash(2月1日)

Step 3.5 Flash是一个196B参数的MoE模型,每个token激活11B参数。尽管比DeepSeek V3.2小得多,但性能略有领先,吞吐量更高(100 tokens/s对比33 tokens/s)。它采用了门控注意力和多令牌预测(MTP-3),即同时预测三个未来token,这在训练和推理中都有使用。

4. Qwen3-Coder-Next(2月3日)

这是一个80B参数的编码专用模型,每个token激活3B参数,在编码任务上超越了更大模型。其架构与Qwen3-Next相同,采用门控DeltaNet和门控注意力混合(3:1比例)。门控DeltaNet是一种线性注意力变体,可提高长上下文的内存效率。该模型原生支持262K token上下文长度。

5. z.AI的GLM-5(2月12日)

GLM-5是一个744B参数的MoE模型,每个token激活40B参数,是GLM-4.7的重大升级。它采用了DeepSeek的多头潜在注意力和稀疏注意力,以降低长上下文推理成本。总参数的增加主要来自专家数量(从160个增加到256个)和层维度。与GLM-4.7相比,变压器层数从92层减少到78层。

6. MiniMax M2.5(2月12日)

MiniMax M2.5是一个230B参数的MoE模型,设计经典,仅使用分组查询注意力(GQA),没有其他效率提升。尽管参数较少,但在SWE-Bench Verified编码基准上表现强劲,成为OpenRouter上最受欢迎的开源模型之一。

7. Nanbeige 4.1 3B(2月13日)

这是一个3B参数的小型模型,类似Llama 3.2 3B架构,但未使用权重绑定。它针对设备端应用,在基准测试中大幅超越Qwen3。其性能提升主要来自监督微调和强化学习后训练。

8. Qwen3.5(2月15日)

Qwen3.5是一个397B参数的MoE模型(每个token激活17B参数),是Qwen系列的最新版本。它采用了Qwen3-Next的混合注意力架构,并增加了多模态支持。其性能与GLM-5和MiniMax M2.5相当。

9. Ant Group的Ling 2.5 1T(2月16日)

Ling 2.5是一个1万亿参数模型,使用闪电注意力(一种循环线性注意力变体)和多头潜在注意力。它不追求绝对基准领先,但在长上下文中效率极高,与Kimi K2相比,在32K token时吞吐量提升3.5倍。

10. Cohere的Tiny Aya(2月17日)

Tiny Aya是一个3.35B参数的多语言模型,专注于非商业使用。它的架构采用并行Transformer块,同时计算注意力和MLP,以提高计算吞吐量。它放弃了QK-Norm以改善长上下文表现。

更新:Sarvam 30B和105B(3月6日)

Sarvam模型来自印度,有两个版本:30B使用GQA,105B使用MLA。105B模型在代理推理方面表现突出,甚至优于DeepSeek R1。较小版本在编码上稍逊于Nemotron 3 Nano,但具有更好的印度语言支持。

总结

2026年初的开源LLM发布展示了多种架构趋势:混合注意力(门控DeltaNet、闪电注意力)、多头潜在注意力、多令牌预测以及滑动窗口注意力。性能提升更多来自训练数据和配方,而非架构本身,但高效架构对于降低推理成本至关重要。