AI News HubLIVE
サイト内リライト3 分で読了

オープンウェイトLLMの春:2026年1月~2月の10のアーキテクチャ

2026年1月から2月にかけてリリースされた10のオープンウェイト大規模言語モデルのアーキテクチャ比較分析。Arcee Trinity、Kimi K2.5、Step 3.5 Flash、Qwen3-Coder-Next、GLM-5、MiniMax M2.5、Nanbeige 4.1、Qwen3.5、Ling 2.5、Tiny Aya、そしてSarvamのアップデートをカバー。ハイブリッドアテンション、マルチトークン予測、Mixture-of-Expertsなどの技術トレンドに焦点を当てる。

ソースAhead of AI (Sebastian Raschka)著者: Sebastian Raschka, PhD

オープンウェイトモデルのリリースラッシュについていくのに苦労しているなら、この記事で主要な傾向を把握できるだろう。

本記事では、2026年1月から2月にかけての主要な10のリリースを時系列で紹介し、アーキテクチャの類似点と相違点に焦点を当てる。

1. Arcee AIのTrinity Large(1月27日)

米国の新興企業Arcee AIは、400BパラメータのMoEモデルTrinity Largeをオープンウェイトで公開。スライディングウィンドウアテンション(3:1のローカル対グローバル比)、QK-Norm、位置埋め込みなし(NoPE)、ゲーテッドアテンションを採用。MoEはDeepSeekに類似するが、より粗いエキスパート構成で推論スループットを向上。深さスケーリングされたRMSNormも導入。

2. Moonshot AIのKimi K2.5(1月27日)

Kimi K2.5は1兆パラメータのマルチモーダルモデルで、Kimi K2に視覚サポートを追加。早期フュージョン方式でトレーニング初期から視覚トークンを導入。アーキテクチャはDeepSeek V3のスケールアップ版。ベンチマークでは当時の最先端プロプライエタリモデルに匹敵。

3. StepFunのStep 3.5 Flash(2月1日)

196BパラメータのMoEモデルで、トークンあたり11Bパラメータを活性化。DeepSeek V3.2よりはるかに小さいが、性能はわずかに上回り、スループットは100トークン/秒と高い。ゲーテッドアテンションとマルチトークン予測(MTP-3)を採用し、トレーニングと推論の両方で3つの将来トークンを同時予測。

4. Qwen3-Coder-Next(2月3日)

80Bパラメータのコーディング特化モデル(3B活性化)。Qwen3-Nextと同じアーキテクチャで、ゲーテッドDeltaNetとゲーテッドアテンションのハイブリッド(3:1比)を使用。ゲーテッドDeltaNetは線形注意の一種で、長いコンテキストでのメモリ効率を向上。ネイティブ262Kトークンのコンテキスト長をサポート。

5. z.AIのGLM-5(2月12日)

744BパラメータのMoEモデル(40B活性化)。GLM-4.7から大きくスケールアップ。DeepSeekのマルチヘッド潜在注意とスパース注意を採用し、長いコンテキストの推論コストを削減。総パラメータ増加はエキスパート数(160→256)と層次元の拡大によるもの。トランスフォーマー層数は92から78に減少。

6. MiniMax M2.5(2月12日)

230BパラメータのMoEモデルで、古典的なGQAのみを使用。パラメータが少ないにもかかわらず、SWE-Bench Verifiedで強いコーディング性能を発揮し、OpenRouterで最も人気のオープンウェイトモデルの一つに。

7. Nanbeige 4.1 3B(2月13日)

Llama 3.2 3Bに類似した小型モデル(3Bパラメータ)で、ウェイトタイイングなし。ベンチマークでQwen3を大きく上回る。性能向上は主にSFTとRL後トレーニングによる。

8. Qwen3.5(2月15日)

397BパラメータのMoEモデル(17B活性化)。Qwen3-Nextのハイブリッド注意アーキテクチャを採用し、マルチモーダルサポートを追加。性能はGLM-5やMiniMax M2.5に匹敵。

9. Ant GroupのLing 2.5 1T(2月16日)

1兆パラメータモデルで、Lightning Attention(リカレント線形注意)とマルチヘッド潜在注意を使用。絶対的なベンチマーク性能ではトップではないが、長いコンテキストでの効率が非常に高く、Kimi K2と比較して32Kトークンで3.5倍のスループット。

10. CohereのTiny Aya(2月17日)

3.35Bパラメータの多言語モデルで、非商用利用向け。並列トランスフォーマーブロックを採用し、注意とMLPを同時計算してスループットを向上。QK-Normを省略し、長いコンテキスト性能を改善。

更新:Sarvam 30Bおよび105B(3月6日)

インドからのモデル。30B版はGQA、105B版はMLAを使用。105B版はエージェント推論で優れ、DeepSeek R1をも上回る。30B版はコーディングでNemotron 3 Nanoに劣るが、インド言語サポートに優れる。

まとめ

2026年初頭のオープンウェイトLLMリリースは、ハイブリッド注意、マルチトークン予測、MLAなど、効率的なアーキテクチャへの傾向を示している。モデリング性能はアーキテクチャよりもデータ品質とトレーニング手法に依存する可能性があるが、効率的な設計は推論コストの削減に不可欠である。