ZAYA1-8B技術報告
ZAYA1-8B是一款基於MoE++架構的推理型混合專家模型,啟用引數僅7億,總引數80億,在AMD全棧計算平臺上訓練。它在數學和程式設計基準測試中與DeepSeek-R1-0528相當甚至超越,並提出了Markovian RSA測試時計算方法,進一步提升推理效能。
文章情報
要點
- ZAYA1-8B擁有7億啟用引數和80億總引數,在AMD平臺上完整訓練。
- 在多個數學和程式設計基準測試中,表現與DeepSeek-R1-0528持平或更優。
- 採用四階段強化學習級聯訓練,包括推理預熱、RLVE-Gym課程、數學與程式碼RL、以及行為RL。
- 提出Markovian RSA測試時計算方法,透過遞迴聚合並行推理軌跡,在AIME'25上達到91.9%準確率。
為什麼重要
這條新聞值得關注,因為ZAYA1-8B擁有7億啟用引數和80億總引數,在AMD平臺上完整訓練。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
ZAYA1-8B是由Zyphra團隊開發的一款推理型混合專家(MoE)模型,採用了創新的MoE++架構。該模型擁有7億啟用引數和80億總引數,其核心預訓練、中期訓練和監督微調均在AMD提供的全棧計算、網路和軟體平臺上完成。這一設計使得ZAYA1-8B在不到10億啟用引數的情況下,在多項具有挑戰性的數學和程式設計基準測試中達到了與DeepSeek-R1-0528相當甚至超越的效能,並與規模更大的開源推理模型保持競爭力。例如,在AIME 2025和HMMT 2025等競賽級基準測試中,ZAYA1-8B的表現令人矚目。
ZAYA1-8B從零開始針對推理能力進行訓練,從預訓練階段就引入了推理資料,並採用了一種保留答案的修剪方案,以確保推理軌跡的完整性。在後訓練階段,研究團隊設計了一個四階段的強化學習級聯:首先是數學和謎題上的推理預熱,以建立基礎推理能力;接著是包含400個任務的RLVE-Gym課程,覆蓋多種推理場景;然後是數學和程式碼強化學習,利用測試時計算軌跡和基於競賽程式設計參考構建的合成程式碼環境,進一步強化模型在複雜數學和程式設計任務上的表現;最後是用於對話和指令遵循的行為強化學習,使模型能夠更好地與人類互動。
此外,該研究報告還提出了一種名為Markovian RSA的測試時計算方法。這種方法透過遞迴地聚合並行推理軌跡,同時僅在前向傳播中攜帶有限長度的推理尾部,從而在不顯著增加計算成本的情況下提升推理質量。在測試時計算評估中,Markovian RSA將ZAYA1-8B在AIME'25上的準確率提升至91.9%,在HMMT'25上達到89.6%,同時僅需攜帶4K令牌的尾部,大幅縮小了與Gemini-2.5 Pro、DeepSeek-V3.2和GPT-5-High等更大規模推理模型之間的差距。這一結果表明,透過高效的測試時計算策略,小引數模型也能達到接近頂尖大模型的推理水平。
ZAYA1-8B的成功展示了高效推理模型的設計潛力,併為未來在有限計算資源下實現高效能推理提供了新的方向。該模型由Robert Washbourne、Rishi Iyer等18位作者共同完成,論文於2026年5月6日提交至arXiv。目前,模型的程式碼和權重預計將會開源,以促進社群進一步研究和應用。這一工作不僅推動了推理模型小型化的發展,也為在AMD等非NVIDIA硬體上訓練高效能模型提供了成功的範例。