AI News HubLIVE
站內改寫1 分鐘閱讀

SpecMD:投機專家預取的全面研究

SpecMD是蘋果研究人員開發的標準化框架,用於基準測試和評估混合專家(MoE)模型中的專家緩存策略。研究發現MoE專家訪問模式不符合時間局部性,從而提出了一種稱為Least-Stale的新驅逐策略,與LRU相比,該策略將碰撞未命中率降低了85倍,在OLMoE上實現了88%以上的命中率和34.7%的首令牌時間減少。

蘋果機器學習研究團隊近日在ICML 2026上發表了一篇題為《SpecMD:投機專家預取的全面研究》的論文,該論文聚焦於混合專家(MoE)模型中的專家緩存問題。MoE模型通過稀疏專家激活來提升效率——在每次推理中僅激活模型參數的一個子集。然而,要將這種稀疏性轉化為實際的性能提升,需要高效的專家緩存機制。此前的研究提出了多種以硬件為中心的緩存策略,例如基於最近最少使用(LRU)或最不常使用(LFU)的驅逐策略,但這些策略之間的相互作用以及它們在不同硬件規格下的表現尚未得到充分理解。

為了填補這一空白,研究團隊開發了SpecMD,這是一個標準化的基準測試框架,用於在各種硬件配置上評估即時專家緩存策略。利用SpecMD,研究人員對多種MoE緩存策略進行了詳盡的基準測試,在受控條件下再現並擴展了先前的工作,同時納入了現實約束。實驗結果表明,MoE的專家訪問模式並不符合時間局部性假設(如LRU和LFU)。這一發現促使團隊提出了一種名為Least-Stale的新型驅逐策略,該策略利用MoE可預測的專家訪問模式,將碰撞未命中率相比LRU降低了高達85倍。

通過這種改進,SpecMD在僅使用5%(約0.6GB)的VRAM緩存容量時,在OLMoE模型上實現了超過88%的命中率,並將首令牌時間(TTFT)減少了34.7%。該研究為MoE模型的部署提供了重要見解,特別是在緩存策略選擇和硬件配置優化方面。SpecMD框架使研究人員和工程師能夠更有效地評估現實系統中的專家緩存策略,從而推動MoE模型在資源受限環境中的實際應用。