AI News HubLIVE
站内改写1 分钟阅读

SpecMD:投机专家预取的全面研究

SpecMD是苹果研究人员开发的标准化框架,用于基准测试和评估混合专家(MoE)模型中的专家缓存策略。研究发现MoE专家访问模式不符合时间局部性,从而提出了一种称为Least-Stale的新驱逐策略,与LRU相比,该策略将碰撞未命中率降低了85倍,在OLMoE上实现了88%以上的命中率和34.7%的首令牌时间减少。

苹果机器学习研究团队近日在ICML 2026上发表了一篇题为《SpecMD:投机专家预取的全面研究》的论文,该论文聚焦于混合专家(MoE)模型中的专家缓存问题。MoE模型通过稀疏专家激活来提升效率——在每次推理中仅激活模型参数的一个子集。然而,要将这种稀疏性转化为实际的性能提升,需要高效的专家缓存机制。此前的研究提出了多种以硬件为中心的缓存策略,例如基于最近最少使用(LRU)或最不常使用(LFU)的驱逐策略,但这些策略之间的相互作用以及它们在不同硬件规格下的表现尚未得到充分理解。

为了填补这一空白,研究团队开发了SpecMD,这是一个标准化的基准测试框架,用于在各种硬件配置上评估即时专家缓存策略。利用SpecMD,研究人员对多种MoE缓存策略进行了详尽的基准测试,在受控条件下再现并扩展了先前的工作,同时纳入了现实约束。实验结果表明,MoE的专家访问模式并不符合时间局部性假设(如LRU和LFU)。这一发现促使团队提出了一种名为Least-Stale的新型驱逐策略,该策略利用MoE可预测的专家访问模式,将碰撞未命中率相比LRU降低了高达85倍。

通过这种改进,SpecMD在仅使用5%(约0.6GB)的VRAM缓存容量时,在OLMoE模型上实现了超过88%的命中率,并将首令牌时间(TTFT)减少了34.7%。该研究为MoE模型的部署提供了重要见解,特别是在缓存策略选择和硬件配置优化方面。SpecMD框架使研究人员和工程师能够更有效地评估现实系统中的专家缓存策略,从而推动MoE模型在资源受限环境中的实际应用。