2026-05-07 13:44 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Zyphra發佈ZAYA1-8B：基於AMD硬件訓練的小型推理MoE模型，性能遠超其體量

Zyphra AI發佈了ZAYA1-8B，一款僅有7.6億活躍參數的小型混合專家（MoE）語言模型，但在數學和編程基準測試中擊敗了多個體量更大的開源模型。該模型採用MoE++架構，包含壓縮卷積注意力（CCA）、MLP路由器和PID控制器偏置平衡等創新，並引入了馬爾可夫遞歸自聚合（Markovian RSA）測試時計算方法，在HMMT'25上超越Claude 4.5 Sonnet，逼近DeepSeek-V3.2。模型完全在AMD Instinct MI300硬件上訓練，並以Apache 2.0許可發佈。

來源MarkTechPost作者: Asif Razzaq

Zyphra AI發佈了ZAYA1-8B，一款小型混合專家（Mixture of Experts, MoE）語言模型，擁有7.6億活躍參數和84億總參數。該模型完全在AMD硬件上訓練，在數學和編程基準測試中擊敗了多個體量更大的開源模型，現已通過Apache 2.0許可在Hugging Face和Zyphra Cloud上提供。

活躍參數與總參數的區別至關重要。在標準密集模型中，每個輸入token會激活所有參數；而在MoE模型中，每次推理僅激活一部分專家參數。ZAYA1-8B總參數84億，但每次前向傳播僅使用7.6億，從而大幅降低推理計算和內存帶寬需求，同時保留更大模型的表示能力。這使得ZAYA1-8B可以部署在設備端用於本地LLM應用，在測試時計算框架中高效運行，並以更低延遲提供服務。

ZAYA1-8B基於Zyphra的MoE++架構構建，相較於標準MoE設計引入三項創新：壓縮卷積注意力（CCA）——一種在壓縮潛在空間中運行的序列混合機制，相比標準注意力實現8倍KV緩存壓縮；MLP基路由器與PID控制器偏置平衡——替代標準線性投影路由器，通過PID控制器主動防止專家負載不平衡；學習殘差縮放——以極小的參數和FLOP成本控制殘差流層的增長。

在訓練基礎設施方面，ZAYA1-8B的預訓練、中期訓練和監督微調均在AMD Instinct MI300堆棧上完成。完整訓練流程運行在一個由IBM構建、包含1024個AMD Instinct MI300X節點的定製集羣上，節點間通過AMD Pensando Pollara互連。

ZAYA1-8B的後訓練管線包含五個順序階段：首先是標準SFT階段，涵蓋聊天、指令跟隨、代碼、數學和測試時計算能力；第二階段是推理熱身，結合數學任務、邏輯與謎題求解以及測試時計算提示；第三階段是大型RLVE-Gym階段，動態調整難題難度以訓練核心推理電路；第四階段是大型數學和代碼強化學習階段；最後是輕量級RLHF/RLAIF階段，改善聊天行為、指令跟隨和寫作風格。Zyphra的研究團隊觀察到，在數學和編程上，強化學習帶來了最大的能力提升。

除了模型本身，馬爾可夫RSA（Markovian RSA）是一項重要的技術創新。該方法結合了遞歸自聚合（RSA）和馬爾可夫思維兩種思想：每個提示並行生成多個推理軌跡，從每個軌跡提取固定長度的尾部片段，通過子採樣構建新的聚合提示，然後用於下一輪並行響應。這種設計使得推理生成可並行化，且馬爾可夫分塊策略確保中間思維鏈長度不會超過固定上下文窗口大小。Zyphra發現，後訓練方法與推理框架的協同設計至關重要：ZAYA1-8B從SFT階段開始就訓練理解馬爾可夫RSA聚合提示，當將相同方法應用於Qwen3-4B-Thinking-2507時，性能提升顯著較小。

基準測試結果顯示，在同類模型比較中，ZAYA1-8B在AIME'26、HMMT Feb.'26、IMO-AnswerBench、APEX-shortlist、LiveCodeBench-v6和GPQA-Diamond等測試中均超越Qwen3-4B-Thinking-2507和Gemma-4-E4B-it。在跨類別比較中，ZAYA1-8B在數學和編程基準上超越了Mistral-Small-4-119B，後者在知識廣度相關的測試中仍保持優勢。

ZAYA1-8B的發佈標誌着小型MoE模型在智能密度上的新標準。其獨特的架構創新、AMD硬件訓練生態以及馬爾可夫RSA測試時計算方法，為高效推理模型的發展提供了新方向。