AI News HubLIVE
站内改写

ZyphraがZAYA1-8Bを公開:AMDハードウェアでトレーニングされた小型推論MoEモデル、サイズをはるかに超える性能

Zyphra AIはZAYA1-8Bを公開しました。これは7億6000万のアクティブパラメータを持つ小型混合専門家(MoE)言語モデルで、数学とコーディングのベンチマークで何倍ものサイズのモデルを凌駕します。MoE++アーキテクチャを採用し、圧縮畳み込みアテンション(CCA)、MLPベースのルーター、学習済み残差スケーリングなどの革新に加え、マルコフ再帰的自己集約(Markovian RSA)と呼ばれる新しいテスト時計算手法を導入しています。モデルはAMD Instinct MI300ハードウェアで完全にトレーニングされ、Apache 2.0ライセンスで公開されています。

記事インテリジェンス

エンジニア上級

要点

  • ZAYA1-8Bは7.6億のアクティブパラメータ(総パラメータ84億)を持ち、数学とコードのタスクでより大きなモデルを上回る。
  • MoE++アーキテクチャは、8倍のKVキャッシュ圧縮を実現するCCA、PIDコントローラーバイアスバランスを備えたMLPルーター、学習済み残差スケーリングを含む。
  • 新しいテスト時計算手法「マルコフRSA」は、再帰的自己集約とマルコフ分割を組み合わせ、効率的なスケーリングを実現。
  • AMD Instinct MI300ハードウェアで完全にトレーニングされた初のMoEモデルで、Apache 2.0ライセンスで公開。

重要な理由

このニュースが重要なのは、ZAYA1-8Bは7.6億のアクティブパラメータ(総パラメータ84億)を持ち、数学とコードのタスクでより大きなモデルを上回るためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Zyphra AIはZAYA1-8Bを公開しました。これは、7億6000万のアクティブパラメータと84億の総パラメータを持つ小型の混合専門家(MoE)言語モデルです。AMDハードウェアでエンドツーエンドでトレーニングされ、数学とコーディングのベンチマークで何倍ものサイズのオープンウェイトモデルを凌駕しており、Apache 2.0ライセンスでHugging FaceおよびZyphra Cloud上で利用可能です。

アクティブパラメータと総パラメータの区別は重要です。標準的な高密度モデルでは、すべてのパラメータがすべての入力トークンに対して活性化されます。MoEモデルでは、ネットワークのパラメータのサブセット(エキスパート)のみが推論時に活性化されます。ZAYA1-8Bは総パラメータ84億ですが、1回のフォワードパスで活性化されるのは7億6000万のみです。これにより、推論計算とメモリ帯域幅の要件が大幅に削減され、はるかに大きなモデルの表現力を維持します。ZAYA1-8Bは、ローカルLLMアプリケーション用にデバイス上にデプロイでき、テスト時計算ハーネスで効率的に実行し、同様のベンチマーク性能を持つ高密度モデルと比較して低レイテンシでリクエストを処理できます。

ZAYA1-8BはZyphraのMoE++アーキテクチャに基づいて構築されており、標準のMoE設計に比べて3つの具体的な変更を導入しています。圧縮畳み込みアテンション(CCA)は、圧縮潜在空間で動作するシーケンス混合メカニズムで、標準アテンションと比較して8倍のKVキャッシュ圧縮を実現します。MLPベースのルーターとPIDコントローラーバイアスバランシングは、標準の線形投影ルーターを置き換え、エキスパート間の負荷不均衡を積極的に防止します。学習済み残差スケーリングは、最小限のパラメータとFLOPコストで、深層ネットワークの残差ストリームノルムの成長を制御します。

トレーニングインフラストラクチャに関しては、ZAYA1-8BはAMD Instinct MI300スタック上で事前トレーニング、中期トレーニング、教師ありファインチューニングが行われました。完全なトレーニングパイプラインは、IBMと構築したカスタムトレーニングクラスター内の1024のAMD Instinct MI300Xノードで実行され、ノード間はAMD Pensando Pollara相互接続で接続されています。

ZAYA1-8Bの後トレーニングパイプラインは5つの連続したステージで構成されています:標準SFTステージ、推論ウォームアップ、大規模RLVE-Gymフェーズ、大規模数学・コードRLフェーズ、そして軽量RLHF/RLAIFフェーズです。Zyphraの研究チームは、数学とコーディングにおいてRL中に最も顕著な能力向上を観察しました。

モデルと並んで最も技術的に重要な貢献はマルコフRSA(Markovian RSA)です。これは、Recursive Self-Aggregation(RSA)とマルコフ思考法のアイデアを組み合わせたテスト時計算(TTC)スキームです。各プロンプトに対して複数のトレースが並行生成され、各トレースから固定長の末尾セグメントが抽出され、候補プールからサブサンプリングによって新しい集約プロンプトが構築され、これらの集約プロンプトが次の並行応答のラウンドを生成します。この結果、推論生成は並列化可能であり、マルコフ分割戦略により中間思考連鎖長が固定コンテキストウィンドウサイズを超えることはありません。Zyphraは、後トレーニング方法論と推論ハーネスの共設計が不可欠であることを発見しました。

ベンチマーク結果では、ZAYA1-8Bは同クラスの比較でQwen3-4B-Thinking-2507やGemma-4-E4B-itを数学とコーディングの全カテゴリで上回り、より大きなモデルとの比較ではMistral-Small-4-119Bを数学とコーディングで凌駕しました。ZAYA1-8Bのリリースは、小型MoEモデルにおける知能密度の新たな基準を確立し、効率的な推論モデルの発展に新たな方向性を示しています。