2026-02-25 22:26 UTC+9サイト内リライト3 分で読了更新: 2026-06-27 09:25 UTC+9

オープンウェイトLLMの春：2026年1月～2月の10のアーキテクチャ

2026年1月から2月にかけてリリースされた10のオープンウェイト大規模言語モデルのアーキテクチャ比較分析。Arcee Trinity、Kimi K2.5、Step 3.5 Flash、Qwen3-Coder-Next、GLM-5、MiniMax M2.5、Nanbeige 4.1、Qwen3.5、Ling 2.5、Tiny Aya、そしてSarvamのアップデートをカバー。ハイブリッドアテンション、マルチトークン予測、Mixture-of-Expertsなどの技術トレンドに焦点を当てる。

ソースAhead of AI (Sebastian Raschka)著者: Sebastian Raschka, PhD

オープンウェイトモデルのリリースラッシュについていくのに苦労しているなら、この記事で主要な傾向を把握できるだろう。

本記事では、2026年1月から2月にかけての主要な10のリリースを時系列で紹介し、アーキテクチャの類似点と相違点に焦点を当てる。

1. Arcee AIのTrinity Large（1月27日）

米国の新興企業Arcee AIは、400BパラメータのMoEモデルTrinity Largeをオープンウェイトで公開。スライディングウィンドウアテンション（3:1のローカル対グローバル比）、QK-Norm、位置埋め込みなし（NoPE）、ゲーテッドアテンションを採用。MoEはDeepSeekに類似するが、より粗いエキスパート構成で推論スループットを向上。深さスケーリングされたRMSNormも導入。

2. Moonshot AIのKimi K2.5（1月27日）

Kimi K2.5は1兆パラメータのマルチモーダルモデルで、Kimi K2に視覚サポートを追加。早期フュージョン方式でトレーニング初期から視覚トークンを導入。アーキテクチャはDeepSeek V3のスケールアップ版。ベンチマークでは当時の最先端プロプライエタリモデルに匹敵。

3. StepFunのStep 3.5 Flash（2月1日）

196BパラメータのMoEモデルで、トークンあたり11Bパラメータを活性化。DeepSeek V3.2よりはるかに小さいが、性能はわずかに上回り、スループットは100トークン/秒と高い。ゲーテッドアテンションとマルチトークン予測（MTP-3）を採用し、トレーニングと推論の両方で3つの将来トークンを同時予測。

4. Qwen3-Coder-Next（2月3日）

80Bパラメータのコーディング特化モデル（3B活性化）。Qwen3-Nextと同じアーキテクチャで、ゲーテッドDeltaNetとゲーテッドアテンションのハイブリッド（3:1比）を使用。ゲーテッドDeltaNetは線形注意の一種で、長いコンテキストでのメモリ効率を向上。ネイティブ262Kトークンのコンテキスト長をサポート。

5. z.AIのGLM-5（2月12日）

744BパラメータのMoEモデル（40B活性化）。GLM-4.7から大きくスケールアップ。DeepSeekのマルチヘッド潜在注意とスパース注意を採用し、長いコンテキストの推論コストを削減。総パラメータ増加はエキスパート数（160→256）と層次元の拡大によるもの。トランスフォーマー層数は92から78に減少。

6. MiniMax M2.5（2月12日）

230BパラメータのMoEモデルで、古典的なGQAのみを使用。パラメータが少ないにもかかわらず、SWE-Bench Verifiedで強いコーディング性能を発揮し、OpenRouterで最も人気のオープンウェイトモデルの一つに。

7. Nanbeige 4.1 3B（2月13日）

Llama 3.2 3Bに類似した小型モデル（3Bパラメータ）で、ウェイトタイイングなし。ベンチマークでQwen3を大きく上回る。性能向上は主にSFTとRL後トレーニングによる。

8. Qwen3.5（2月15日）

397BパラメータのMoEモデル（17B活性化）。Qwen3-Nextのハイブリッド注意アーキテクチャを採用し、マルチモーダルサポートを追加。性能はGLM-5やMiniMax M2.5に匹敵。

9. Ant GroupのLing 2.5 1T（2月16日）

1兆パラメータモデルで、Lightning Attention（リカレント線形注意）とマルチヘッド潜在注意を使用。絶対的なベンチマーク性能ではトップではないが、長いコンテキストでの効率が非常に高く、Kimi K2と比較して32Kトークンで3.5倍のスループット。

10. CohereのTiny Aya（2月17日）

3.35Bパラメータの多言語モデルで、非商用利用向け。並列トランスフォーマーブロックを採用し、注意とMLPを同時計算してスループットを向上。QK-Normを省略し、長いコンテキスト性能を改善。

更新：Sarvam 30Bおよび105B（3月6日）

インドからのモデル。30B版はGQA、105B版はMLAを使用。105B版はエージェント推論で優れ、DeepSeek R1をも上回る。30B版はコーディングでNemotron 3 Nanoに劣るが、インド言語サポートに優れる。

まとめ

2026年初頭のオープンウェイトLLMリリースは、ハイブリッド注意、マルチトークン予測、MLAなど、効率的なアーキテクチャへの傾向を示している。モデリング性能はアーキテクチャよりもデータ品質とトレーニング手法に依存する可能性があるが、効率的な設計は推論コストの削減に不可欠である。