2026-05-07 13:44 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Zyphra发布ZAYA1-8B：基于AMD硬件训练的小型推理MoE模型，性能远超其体量

Zyphra AI发布了ZAYA1-8B，一款仅有7.6亿活跃参数的小型混合专家（MoE）语言模型，但在数学和编程基准测试中击败了多个体量更大的开源模型。该模型采用MoE++架构，包含压缩卷积注意力（CCA）、MLP路由器和PID控制器偏置平衡等创新，并引入了马尔可夫递归自聚合（Markovian RSA）测试时计算方法，在HMMT'25上超越Claude 4.5 Sonnet，逼近DeepSeek-V3.2。模型完全在AMD Instinct MI300硬件上训练，并以Apache 2.0许可发布。

来源MarkTechPost作者: Asif Razzaq

Zyphra AI发布了ZAYA1-8B，一款小型混合专家（Mixture of Experts, MoE）语言模型，拥有7.6亿活跃参数和84亿总参数。该模型完全在AMD硬件上训练，在数学和编程基准测试中击败了多个体量更大的开源模型，现已通过Apache 2.0许可在Hugging Face和Zyphra Cloud上提供。

活跃参数与总参数的区别至关重要。在标准密集模型中，每个输入token会激活所有参数；而在MoE模型中，每次推理仅激活一部分专家参数。ZAYA1-8B总参数84亿，但每次前向传播仅使用7.6亿，从而大幅降低推理计算和内存带宽需求，同时保留更大模型的表示能力。这使得ZAYA1-8B可以部署在设备端用于本地LLM应用，在测试时计算框架中高效运行，并以更低延迟提供服务。

ZAYA1-8B基于Zyphra的MoE++架构构建，相较于标准MoE设计引入三项创新：压缩卷积注意力（CCA）——一种在压缩潜在空间中运行的序列混合机制，相比标准注意力实现8倍KV缓存压缩；MLP基路由器与PID控制器偏置平衡——替代标准线性投影路由器，通过PID控制器主动防止专家负载不平衡；学习残差缩放——以极小的参数和FLOP成本控制残差流层的增长。

在训练基础设施方面，ZAYA1-8B的预训练、中期训练和监督微调均在AMD Instinct MI300堆栈上完成。完整训练流程运行在一个由IBM构建、包含1024个AMD Instinct MI300X节点的定制集群上，节点间通过AMD Pensando Pollara互连。

ZAYA1-8B的后训练管线包含五个顺序阶段：首先是标准SFT阶段，涵盖聊天、指令跟随、代码、数学和测试时计算能力；第二阶段是推理热身，结合数学任务、逻辑与谜题求解以及测试时计算提示；第三阶段是大型RLVE-Gym阶段，动态调整难题难度以训练核心推理电路；第四阶段是大型数学和代码强化学习阶段；最后是轻量级RLHF/RLAIF阶段，改善聊天行为、指令跟随和写作风格。Zyphra的研究团队观察到，在数学和编程上，强化学习带来了最大的能力提升。

除了模型本身，马尔可夫RSA（Markovian RSA）是一项重要的技术创新。该方法结合了递归自聚合（RSA）和马尔可夫思维两种思想：每个提示并行生成多个推理轨迹，从每个轨迹提取固定长度的尾部片段，通过子采样构建新的聚合提示，然后用于下一轮并行响应。这种设计使得推理生成可并行化，且马尔可夫分块策略确保中间思维链长度不会超过固定上下文窗口大小。Zyphra发现，后训练方法与推理框架的协同设计至关重要：ZAYA1-8B从SFT阶段开始就训练理解马尔可夫RSA聚合提示，当将相同方法应用于Qwen3-4B-Thinking-2507时，性能提升显著较小。

基准测试结果显示，在同类模型比较中，ZAYA1-8B在AIME'26、HMMT Feb.'26、IMO-AnswerBench、APEX-shortlist、LiveCodeBench-v6和GPQA-Diamond等测试中均超越Qwen3-4B-Thinking-2507和Gemma-4-E4B-it。在跨类别比较中，ZAYA1-8B在数学和编程基准上超越了Mistral-Small-4-119B，后者在知识广度相关的测试中仍保持优势。

ZAYA1-8B的发布标志着小型MoE模型在智能密度上的新标准。其独特的架构创新、AMD硬件训练生态以及马尔可夫RSA测试时计算方法，为高效推理模型的发展提供了新方向。