Zyphra釋出ZAYA1-8B:基於AMD硬體訓練的小型推理MoE模型,效能遠超其體量
Zyphra AI釋出了ZAYA1-8B,一款僅有7.6億活躍引數的小型混合專家(MoE)語言模型,但在數學和程式設計基準測試中擊敗了多個體量更大的開源模型。該模型採用MoE++架構,包含壓縮卷積注意力(CCA)、MLP路由器和PID控制器偏置平衡等創新,並引入了馬爾可夫遞迴自聚合(Markovian RSA)測試時計算方法,在HMMT'25上超越Claude 4.5 Sonnet,逼近DeepSeek-V3.2。模型完全在AMD Instinct MI300硬體上訓練,並以Apache 2.0許可釋出。
文章情報
要點
- ZAYA1-8B僅有7.6億活躍引數,總引數84億,但在數學和編碼任務上超越多個更大模型。
- 採用MoE++架構,包括8倍KV快取壓縮的CCA、MLP路由器及PID偏置平衡、學習殘差縮放。
- 新型測試時計算方法馬爾可夫RSA,結合遞迴自聚合與馬爾可夫分塊,大幅提升推理效能。
- 模型在1024個AMD MI300X節點上訓練,是首個完全在AMD硬體上訓練的MoE模型,以Apache 2.0許可釋出。
為什麼重要
這條新聞值得關注,因為ZAYA1-8B僅有7.6億活躍引數,總引數84億,但在數學和編碼任務上超越多個更大模型。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
Zyphra AI釋出了ZAYA1-8B,一款小型混合專家(Mixture of Experts, MoE)語言模型,擁有7.6億活躍引數和84億總引數。該模型完全在AMD硬體上訓練,在數學和程式設計基準測試中擊敗了多個體量更大的開源模型,現已透過Apache 2.0許可在Hugging Face和Zyphra Cloud上提供。
活躍引數與總引數的區別至關重要。在標準密集模型中,每個輸入token會啟用所有引數;而在MoE模型中,每次推理僅啟用一部分專家引數。ZAYA1-8B總引數84億,但每次前向傳播僅使用7.6億,從而大幅降低推理計算和記憶體頻寬需求,同時保留更大模型的表示能力。這使得ZAYA1-8B可以部署在裝置端用於本地LLM應用,在測試時計算框架中高效執行,並以更低延遲提供服務。
ZAYA1-8B基於Zyphra的MoE++架構構建,相較於標準MoE設計引入三項創新:壓縮卷積注意力(CCA)——一種在壓縮潛在空間中執行的序列混合機制,相比標準注意力實現8倍KV快取壓縮;MLP基路由器與PID控制器偏置平衡——替代標準線性投影路由器,透過PID控制器主動防止專家負載不平衡;學習殘差縮放——以極小的引數和FLOP成本控制殘差流層的增長。
在訓練基礎設施方面,ZAYA1-8B的預訓練、中期訓練和監督微調均在AMD Instinct MI300堆疊上完成。完整訓練流程執行在一個由IBM構建、包含1024個AMD Instinct MI300X節點的定製叢集上,節點間透過AMD Pensando Pollara互連。
ZAYA1-8B的後訓練管線包含五個順序階段:首先是標準SFT階段,涵蓋聊天、指令跟隨、程式碼、數學和測試時計算能力;第二階段是推理熱身,結合數學任務、邏輯與謎題求解以及測試時計算提示;第三階段是大型RLVE-Gym階段,動態調整難題難度以訓練核心推理電路;第四階段是大型數學和程式碼強化學習階段;最後是輕量級RLHF/RLAIF階段,改善聊天行為、指令跟隨和寫作風格。Zyphra的研究團隊觀察到,在數學和程式設計上,強化學習帶來了最大的能力提升。
除了模型本身,馬爾可夫RSA(Markovian RSA)是一項重要的技術創新。該方法結合了遞迴自聚合(RSA)和馬爾可夫思維兩種思想:每個提示並行生成多個推理軌跡,從每個軌跡提取固定長度的尾部片段,透過子取樣構建新的聚合提示,然後用於下一輪並行響應。這種設計使得推理生成可並行化,且馬爾可夫分塊策略確保中間思維鏈長度不會超過固定上下文視窗大小。Zyphra發現,後訓練方法與推理框架的協同設計至關重要:ZAYA1-8B從SFT階段開始就訓練理解馬爾可夫RSA聚合提示,當將相同方法應用於Qwen3-4B-Thinking-2507時,效能提升顯著較小。
基準測試結果顯示,在同類模型比較中,ZAYA1-8B在AIME'26、HMMT Feb.'26、IMO-AnswerBench、APEX-shortlist、LiveCodeBench-v6和GPQA-Diamond等測試中均超越Qwen3-4B-Thinking-2507和Gemma-4-E4B-it。在跨類別比較中,ZAYA1-8B在數學和程式設計基準上超越了Mistral-Small-4-119B,後者在知識廣度相關的測試中仍保持優勢。
ZAYA1-8B的釋出標誌著小型MoE模型在智慧密度上的新標準。其獨特的架構創新、AMD硬體訓練生態以及馬爾可夫RSA測試時計算方法,為高效推理模型的發展提供了新方向。