2026-05-08 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

ZAYA1-8B技术报告

ZAYA1-8B是一款基于MoE++架构的推理型混合专家模型，激活参数仅7亿，总参数80亿，在AMD全栈计算平台上训练。它在数学和编程基准测试中与DeepSeek-R1-0528相当甚至超越，并提出了Markovian RSA测试时计算方法，进一步提升推理性能。

来源arXiv AI作者: Robert Washbourne, Rishi Iyer, Tomas Figliolia, Henry Zheng, Ryan Lorig-Roach, Sungyeon Yang, Pritish Yuvraj, Quentin Anthony, Yury Tokpanov, Xiao Yang, Ganesh Nanduru, Stephen Ebert, Praneeth Medepalli, Skyler Szot, Srivatsan Rajagopal, Alex Ong, Bhavana Mehta, Beren Millidge

ZAYA1-8B是由Zyphra团队开发的一款推理型混合专家（MoE）模型，采用了创新的MoE++架构。该模型拥有7亿激活参数和80亿总参数，其核心预训练、中期训练和监督微调均在AMD提供的全栈计算、网络和软件平台上完成。这一设计使得ZAYA1-8B在不到10亿激活参数的情况下，在多项具有挑战性的数学和编程基准测试中达到了与DeepSeek-R1-0528相当甚至超越的性能，并与规模更大的开源推理模型保持竞争力。例如，在AIME 2025和HMMT 2025等竞赛级基准测试中，ZAYA1-8B的表现令人瞩目。

ZAYA1-8B从零开始针对推理能力进行训练，从预训练阶段就引入了推理数据，并采用了一种保留答案的修剪方案，以确保推理轨迹的完整性。在后训练阶段，研究团队设计了一个四阶段的强化学习级联：首先是数学和谜题上的推理预热，以建立基础推理能力；接着是包含400个任务的RLVE-Gym课程，覆盖多种推理场景；然后是数学和代码强化学习，利用测试时计算轨迹和基于竞赛编程参考构建的合成代码环境，进一步强化模型在复杂数学和编程任务上的表现；最后是用于对话和指令遵循的行为强化学习，使模型能够更好地与人类交互。

此外，该研究报告还提出了一种名为Markovian RSA的测试时计算方法。这种方法通过递归地聚合并行推理轨迹，同时仅在前向传播中携带有限长度的推理尾部，从而在不显著增加计算成本的情况下提升推理质量。在测试时计算评估中，Markovian RSA将ZAYA1-8B在AIME'25上的准确率提升至91.9%，在HMMT'25上达到89.6%，同时仅需携带4K令牌的尾部，大幅缩小了与Gemini-2.5 Pro、DeepSeek-V3.2和GPT-5-High等更大规模推理模型之间的差距。这一结果表明，通过高效的测试时计算策略，小参数模型也能达到接近顶尖大模型的推理水平。

ZAYA1-8B的成功展示了高效推理模型的设计潜力，并为未来在有限计算资源下实现高性能推理提供了新的方向。该模型由Robert Washbourne、Rishi Iyer等18位作者共同完成，论文于2026年5月6日提交至arXiv。目前，模型的代码和权重预计将会开源，以促进社区进一步研究和应用。这一工作不仅推动了推理模型小型化的发展，也为在AMD等非NVIDIA硬件上训练高性能模型提供了成功的范例。