ZAYA1-8B技術報告
ZAYA1-8B是一款基於MoE++架構的推理型混合專家模型,激活參數僅7億,總參數80億,在AMD全棧計算平台上訓練。它在數學和編程基準測試中與DeepSeek-R1-0528相當甚至超越,並提出了Markovian RSA測試時計算方法,進一步提升推理性能。
文章情報
要點
- ZAYA1-8B擁有7億激活參數和80億總參數,在AMD平台上完整訓練。
- 在多個數學和編程基準測試中,表現與DeepSeek-R1-0528持平或更優。
- 採用四階段強化學習級聯訓練,包括推理預熱、RLVE-Gym課程、數學與代碼RL、以及行為RL。
- 提出Markovian RSA測試時計算方法,通過遞歸聚合並行推理軌跡,在AIME'25上達到91.9%準確率。
為甚麼重要
這條新聞值得關注,因為ZAYA1-8B擁有7億激活參數和80億總參數,在AMD平台上完整訓練。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
ZAYA1-8B是由Zyphra團隊開發的一款推理型混合專家(MoE)模型,採用了創新的MoE++架構。該模型擁有7億激活參數和80億總參數,其核心預訓練、中期訓練和監督微調均在AMD提供的全棧計算、網絡和軟件平台上完成。這一設計使得ZAYA1-8B在不到10億激活參數的情況下,在多項具有挑戰性的數學和編程基準測試中達到了與DeepSeek-R1-0528相當甚至超越的性能,並與規模更大的開源推理模型保持競爭力。例如,在AIME 2025和HMMT 2025等競賽級基準測試中,ZAYA1-8B的表現令人矚目。
ZAYA1-8B從零開始針對推理能力進行訓練,從預訓練階段就引入了推理數據,並採用了一種保留答案的修剪方案,以確保推理軌跡的完整性。在後訓練階段,研究團隊設計了一個四階段的強化學習級聯:首先是數學和謎題上的推理預熱,以建立基礎推理能力;接着是包含400個任務的RLVE-Gym課程,覆蓋多種推理場景;然後是數學和代碼強化學習,利用測試時計算軌跡和基於競賽編程參考構建的合成代碼環境,進一步強化模型在複雜數學和編程任務上的表現;最後是用於對話和指令遵循的行為強化學習,使模型能夠更好地與人類交互。
此外,該研究報告還提出了一種名為Markovian RSA的測試時計算方法。這種方法通過遞歸地聚合並行推理軌跡,同時僅在前向傳播中攜帶有限長度的推理尾部,從而在不顯著增加計算成本的情況下提升推理質量。在測試時計算評估中,Markovian RSA將ZAYA1-8B在AIME'25上的準確率提升至91.9%,在HMMT'25上達到89.6%,同時僅需攜帶4K令牌的尾部,大幅縮小了與Gemini-2.5 Pro、DeepSeek-V3.2和GPT-5-High等更大規模推理模型之間的差距。這一結果表明,通過高效的測試時計算策略,小參數模型也能達到接近頂尖大模型的推理水平。
ZAYA1-8B的成功展示了高效推理模型的設計潛力,併為未來在有限計算資源下實現高性能推理提供了新的方向。該模型由Robert Washbourne、Rishi Iyer等18位作者共同完成,論文於2026年5月6日提交至arXiv。目前,模型的代碼和權重預計將會開源,以促進社區進一步研究和應用。這一工作不僅推動了推理模型小型化的發展,也為在AMD等非NVIDIA硬件上訓練高性能模型提供了成功的範例。