2026-05-08 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

ZAYA1-8B技術報告

ZAYA1-8B是一款基於MoE++架構的推理型混合專家模型，激活參數僅7億，總參數80億，在AMD全棧計算平台上訓練。它在數學和編程基準測試中與DeepSeek-R1-0528相當甚至超越，並提出了Markovian RSA測試時計算方法，進一步提升推理性能。

來源arXiv AI作者: Robert Washbourne, Rishi Iyer, Tomas Figliolia, Henry Zheng, Ryan Lorig-Roach, Sungyeon Yang, Pritish Yuvraj, Quentin Anthony, Yury Tokpanov, Xiao Yang, Ganesh Nanduru, Stephen Ebert, Praneeth Medepalli, Skyler Szot, Srivatsan Rajagopal, Alex Ong, Bhavana Mehta, Beren Millidge

ZAYA1-8B是由Zyphra團隊開發的一款推理型混合專家（MoE）模型，採用了創新的MoE++架構。該模型擁有7億激活參數和80億總參數，其核心預訓練、中期訓練和監督微調均在AMD提供的全棧計算、網絡和軟件平台上完成。這一設計使得ZAYA1-8B在不到10億激活參數的情況下，在多項具有挑戰性的數學和編程基準測試中達到了與DeepSeek-R1-0528相當甚至超越的性能，並與規模更大的開源推理模型保持競爭力。例如，在AIME 2025和HMMT 2025等競賽級基準測試中，ZAYA1-8B的表現令人矚目。

ZAYA1-8B從零開始針對推理能力進行訓練，從預訓練階段就引入了推理數據，並採用了一種保留答案的修剪方案，以確保推理軌跡的完整性。在後訓練階段，研究團隊設計了一個四階段的強化學習級聯：首先是數學和謎題上的推理預熱，以建立基礎推理能力；接着是包含400個任務的RLVE-Gym課程，覆蓋多種推理場景；然後是數學和代碼強化學習，利用測試時計算軌跡和基於競賽編程參考構建的合成代碼環境，進一步強化模型在複雜數學和編程任務上的表現；最後是用於對話和指令遵循的行為強化學習，使模型能夠更好地與人類交互。

此外，該研究報告還提出了一種名為Markovian RSA的測試時計算方法。這種方法通過遞歸地聚合並行推理軌跡，同時僅在前向傳播中攜帶有限長度的推理尾部，從而在不顯著增加計算成本的情況下提升推理質量。在測試時計算評估中，Markovian RSA將ZAYA1-8B在AIME'25上的準確率提升至91.9%，在HMMT'25上達到89.6%，同時僅需攜帶4K令牌的尾部，大幅縮小了與Gemini-2.5 Pro、DeepSeek-V3.2和GPT-5-High等更大規模推理模型之間的差距。這一結果表明，通過高效的測試時計算策略，小參數模型也能達到接近頂尖大模型的推理水平。

ZAYA1-8B的成功展示了高效推理模型的設計潛力，併為未來在有限計算資源下實現高性能推理提供了新的方向。該模型由Robert Washbourne、Rishi Iyer等18位作者共同完成，論文於2026年5月6日提交至arXiv。目前，模型的代碼和權重預計將會開源，以促進社區進一步研究和應用。這一工作不僅推動了推理模型小型化的發展，也為在AMD等非NVIDIA硬件上訓練高性能模型提供了成功的範例。