AI News HubLIVE
站内改写

ZAYA1-8Bテクニカルレポート

ZAYA1-8Bは、700Mのアクティブパラメータと8Bの総パラメータを持つ推論特化型混合エキスパートモデルで、AMDのフルスタックプラットフォームでトレーニングされました。数学およびコーディングベンチマークでDeepSeek-R1-0528と同等以上の性能を発揮し、テスト時計算手法Markovian RSAを導入しています。

記事インテリジェンス

エンジニア上級

要点

  • ZAYA1-8Bは700Mのアクティブパラメータと8Bの総パラメータを持ち、AMDプラットフォームでトレーニング。
  • 複数の数学・コーディングベンチマークでDeepSeek-R1-0528と同等以上の性能。
  • 四段階の強化学習カスケード(推論ウォームアップ、RLVE-Gym、数学/コードRL、行動RL)を採用。
  • Markovian RSAテスト時計算により、AIME'25で91.9%、HMMT'25で89.6%の精度を達成。

重要な理由

このニュースが重要なのは、ZAYA1-8Bは700Mのアクティブパラメータと8Bの総パラメータを持ち、AMDプラットフォームでトレーニングためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

ZAYA1-8Bは、Zyphraチームが開発した推論特化型の混合エキスパート(MoE)モデルであり、革新的なMoE++アーキテクチャを採用しています。このモデルは700Mのアクティブパラメータと8Bの総パラメータを持ち、コアの事前学習、中期学習、および教師ありファインチューニングはすべてAMDのフルスタックコンピューティング、ネットワーキング、ソフトウェアプラットフォーム上で実施されました。これにより、10億未満のアクティブパラメータでありながら、複数の難解な数学およびコーディングベンチマークにおいてDeepSeek-R1-0528と同等以上の性能を達成し、より大規模なオープンウェイト推論モデルと競争力を持つことが示されました。例えば、AIME 2025やHMMT 2025などの競技レベルのベンチマークでは、ZAYA1-8Bのパフォーマンスは特に印象的です。

ZAYA1-8Bは推論に特化してゼロからトレーニングされ、事前学習段階から推論データが組み込まれ、解答を保持するトリミング方式が採用されています。ポストトレーニングでは、4段階の強化学習カスケードが使用されています。最初に数学とパズルによる推論ウォームアップで基礎的な推論能力を構築し、次に400タスクからなるRLVE-Gymカリキュラムで多様な推論シナリオをカバーします。続いて、テスト時計算トレースと競技プログラミングの参照から構築された合成コード環境を用いた数学・コードRLにより、複雑な数学・プログラミングタスクでの性能を強化します。最後に、チャットと指示追従のための行動RLを行い、人間とのインタラクションを改善します。

さらに、本報告ではMarkovian RSAというテスト時計算手法が紹介されています。これは、並列推論トレースを再帰的に集約し、各ラウンド間で有限長の推論テールのみを前方に伝搬する手法であり、計算コストを大幅に増加させることなく推論品質を向上させます。テスト時計算評価において、Markovian RSAはZAYA1-8BのAIME'25スコアを91.9%、HMMT'25スコアを89.6%に引き上げ、わずか4Kトークンのテールのみを伝搬することで、Gemini-2.5 Pro、DeepSeek-V3.2、GPT-5-Highなどのより大規模な推論モデルとの差を縮めました。この結果は、効率的なテスト時計算戦略により、小規模パラメータモデルでもトップクラスの大規模モデルに近い推論レベルに達することができることを示しています。

ZAYA1-8Bの成功は、効率的な推論モデルの設計可能性を示し、限られた計算リソースでの高性能推論の実現に新たな方向性を提供します。本モデルはRobert Washbourne、Rishi Iyerら18名の著者により開発され、論文は2026年5月6日にarXivに提出されました。現在、コードと重みはオープンソースとして公開される予定であり、コミュニティによるさらなる研究と応用が促進されることが期待されます。この研究は、推論モデルの小型化を推進するだけでなく、AMDなどの非NVIDIAハードウェア上での高性能モデルトレーニングの成功例を示しています。