AI News HubLIVE
站内改写

ZAYA1-8B技术报告

ZAYA1-8B是一款基于MoE++架构的推理型混合专家模型,激活参数仅7亿,总参数80亿,在AMD全栈计算平台上训练。它在数学和编程基准测试中与DeepSeek-R1-0528相当甚至超越,并提出了Markovian RSA测试时计算方法,进一步提升推理性能。

文章情报

工程师进阶

要点

  • ZAYA1-8B拥有7亿激活参数和80亿总参数,在AMD平台上完整训练。
  • 在多个数学和编程基准测试中,表现与DeepSeek-R1-0528持平或更优。
  • 采用四阶段强化学习级联训练,包括推理预热、RLVE-Gym课程、数学与代码RL、以及行为RL。
  • 提出Markovian RSA测试时计算方法,通过递归聚合并行推理轨迹,在AIME'25上达到91.9%准确率。

为什么重要

这条新闻值得关注,因为ZAYA1-8B拥有7亿激活参数和80亿总参数,在AMD平台上完整训练。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

ZAYA1-8B是由Zyphra团队开发的一款推理型混合专家(MoE)模型,采用了创新的MoE++架构。该模型拥有7亿激活参数和80亿总参数,其核心预训练、中期训练和监督微调均在AMD提供的全栈计算、网络和软件平台上完成。这一设计使得ZAYA1-8B在不到10亿激活参数的情况下,在多项具有挑战性的数学和编程基准测试中达到了与DeepSeek-R1-0528相当甚至超越的性能,并与规模更大的开源推理模型保持竞争力。例如,在AIME 2025和HMMT 2025等竞赛级基准测试中,ZAYA1-8B的表现令人瞩目。

ZAYA1-8B从零开始针对推理能力进行训练,从预训练阶段就引入了推理数据,并采用了一种保留答案的修剪方案,以确保推理轨迹的完整性。在后训练阶段,研究团队设计了一个四阶段的强化学习级联:首先是数学和谜题上的推理预热,以建立基础推理能力;接着是包含400个任务的RLVE-Gym课程,覆盖多种推理场景;然后是数学和代码强化学习,利用测试时计算轨迹和基于竞赛编程参考构建的合成代码环境,进一步强化模型在复杂数学和编程任务上的表现;最后是用于对话和指令遵循的行为强化学习,使模型能够更好地与人类交互。

此外,该研究报告还提出了一种名为Markovian RSA的测试时计算方法。这种方法通过递归地聚合并行推理轨迹,同时仅在前向传播中携带有限长度的推理尾部,从而在不显著增加计算成本的情况下提升推理质量。在测试时计算评估中,Markovian RSA将ZAYA1-8B在AIME'25上的准确率提升至91.9%,在HMMT'25上达到89.6%,同时仅需携带4K令牌的尾部,大幅缩小了与Gemini-2.5 Pro、DeepSeek-V3.2和GPT-5-High等更大规模推理模型之间的差距。这一结果表明,通过高效的测试时计算策略,小参数模型也能达到接近顶尖大模型的推理水平。

ZAYA1-8B的成功展示了高效推理模型的设计潜力,并为未来在有限计算资源下实现高性能推理提供了新的方向。该模型由Robert Washbourne、Rishi Iyer等18位作者共同完成,论文于2026年5月6日提交至arXiv。目前,模型的代码和权重预计将会开源,以促进社区进一步研究和应用。这一工作不仅推动了推理模型小型化的发展,也为在AMD等非NVIDIA硬件上训练高性能模型提供了成功的范例。