オープンウェイトLLMの春:2026年1月~2月の10のアーキテクチャ
2026年1月から2月にかけてリリースされた10のオープンウェイト大規模言語モデルのアーキテクチャ比較分析。Arcee Trinity、Kimi K2.5、Step 3.5 Flash、Qwen3-Coder-Next、GLM-5、MiniMax M2.5、Nanbeige 4.1、Qwen3.5、Ling 2.5、Tiny Aya、そしてSarvamのアップデートをカバー。ハイブリッドアテンション、マルチトークン予測、Mixture-of-Expertsなどの技術トレンドに焦点を当てる。
オープンウェイトモデルのリリースラッシュについていくのに苦労しているなら、この記事で主要な傾向を把握できるだろう。
本記事では、2026年1月から2月にかけての主要な10のリリースを時系列で紹介し、アーキテクチャの類似点と相違点に焦点を当てる。
1. Arcee AIのTrinity Large(1月27日)
米国の新興企業Arcee AIは、400BパラメータのMoEモデルTrinity Largeをオープンウェイトで公開。スライディングウィンドウアテンション(3:1のローカル対グローバル比)、QK-Norm、位置埋め込みなし(NoPE)、ゲーテッドアテンションを採用。MoEはDeepSeekに類似するが、より粗いエキスパート構成で推論スループットを向上。深さスケーリングされたRMSNormも導入。
2. Moonshot AIのKimi K2.5(1月27日)
Kimi K2.5は1兆パラメータのマルチモーダルモデルで、Kimi K2に視覚サポートを追加。早期フュージョン方式でトレーニング初期から視覚トークンを導入。アーキテクチャはDeepSeek V3のスケールアップ版。ベンチマークでは当時の最先端プロプライエタリモデルに匹敵。
3. StepFunのStep 3.5 Flash(2月1日)
196BパラメータのMoEモデルで、トークンあたり11Bパラメータを活性化。DeepSeek V3.2よりはるかに小さいが、性能はわずかに上回り、スループットは100トークン/秒と高い。ゲーテッドアテンションとマルチトークン予測(MTP-3)を採用し、トレーニングと推論の両方で3つの将来トークンを同時予測。
4. Qwen3-Coder-Next(2月3日)
80Bパラメータのコーディング特化モデル(3B活性化)。Qwen3-Nextと同じアーキテクチャで、ゲーテッドDeltaNetとゲーテッドアテンションのハイブリッド(3:1比)を使用。ゲーテッドDeltaNetは線形注意の一種で、長いコンテキストでのメモリ効率を向上。ネイティブ262Kトークンのコンテキスト長をサポート。
5. z.AIのGLM-5(2月12日)
744BパラメータのMoEモデル(40B活性化)。GLM-4.7から大きくスケールアップ。DeepSeekのマルチヘッド潜在注意とスパース注意を採用し、長いコンテキストの推論コストを削減。総パラメータ増加はエキスパート数(160→256)と層次元の拡大によるもの。トランスフォーマー層数は92から78に減少。
6. MiniMax M2.5(2月12日)
230BパラメータのMoEモデルで、古典的なGQAのみを使用。パラメータが少ないにもかかわらず、SWE-Bench Verifiedで強いコーディング性能を発揮し、OpenRouterで最も人気のオープンウェイトモデルの一つに。
7. Nanbeige 4.1 3B(2月13日)
Llama 3.2 3Bに類似した小型モデル(3Bパラメータ)で、ウェイトタイイングなし。ベンチマークでQwen3を大きく上回る。性能向上は主にSFTとRL後トレーニングによる。
8. Qwen3.5(2月15日)
397BパラメータのMoEモデル(17B活性化)。Qwen3-Nextのハイブリッド注意アーキテクチャを採用し、マルチモーダルサポートを追加。性能はGLM-5やMiniMax M2.5に匹敵。
9. Ant GroupのLing 2.5 1T(2月16日)
1兆パラメータモデルで、Lightning Attention(リカレント線形注意)とマルチヘッド潜在注意を使用。絶対的なベンチマーク性能ではトップではないが、長いコンテキストでの効率が非常に高く、Kimi K2と比較して32Kトークンで3.5倍のスループット。
10. CohereのTiny Aya(2月17日)
3.35Bパラメータの多言語モデルで、非商用利用向け。並列トランスフォーマーブロックを採用し、注意とMLPを同時計算してスループットを向上。QK-Normを省略し、長いコンテキスト性能を改善。
更新:Sarvam 30Bおよび105B(3月6日)
インドからのモデル。30B版はGQA、105B版はMLAを使用。105B版はエージェント推論で優れ、DeepSeek R1をも上回る。30B版はコーディングでNemotron 3 Nanoに劣るが、インド言語サポートに優れる。
まとめ
2026年初頭のオープンウェイトLLMリリースは、ハイブリッド注意、マルチトークン予測、MLAなど、効率的なアーキテクチャへの傾向を示している。モデリング性能はアーキテクチャよりもデータ品質とトレーニング手法に依存する可能性があるが、効率的な設計は推論コストの削減に不可欠である。