AI News HubLIVE
站内改写2 分鐘閱讀

MoE專家共同啟用:重排輸入帶來輕鬆吞吐量提升

Doubleword的批次推理服務透過重排輸入順序,使Mixture-of-Experts模型在推理時減少專家載入次數,從而在不修改模型或核心的情況下實現吞吐量提升。實驗表明,使用嵌入模型對提示進行聚類可減少約15%的專家載入,進而帶來顯著的加速效果。

來源Hacker News AI作者: kkm

Doubleword的批次推理服務透過最佳化輸入順序,在不修改模型或核心的前提下提升了Mixture-of-Experts(MoE)模型的推理吞吐量。MoE模型雖然因稀疏專家權重而訓練快速,但在推理時,每個請求在不同層需要載入不同的專家權重,導致記憶體頻寬成為瓶頸,吞吐量低於密集模型。

為解決這一問題,雙字科技提出將相似提示重新排序並分批處理,使得同一批次內的請求儘可能共享專家權重,從而減少每輪前向傳播中需要載入的專家總數。實驗採用Qwen/Qwen3.5-35B-A3B模型(256個專家,每層選Top-8,共40層MoE層),對1000條典型提示進行測試。透過貪婪演算法構建的“專家感知”批次(即每個批次內專家重疊最大化)相比隨機批次減少了21.3%的專家載入次數。

由於實際推理時無法預知專家啟用情況,研究團隊使用BAAI/bge-small-en-v1.5嵌入模型,基於提示嵌入的餘弦相似度進行聚類。這種啟發式方法節省了12.4%的專家載入,達到了最優批次(oracle)效果的58.3%。進一步,透過微調BGE模型,使其嵌入向量的餘弦相似度更貼近專家啟用的Jaccard重疊度,在3萬個Perfectblend樣本訓練後,專家載入節省提升至15.6%,達到oracle的73.6%。

在更困難的Wildchat聊天資料集上(僅包含聊天提示,同質性高),微調模型仍能節省12.3%的專家載入,優於簡單按類別分批的基線。這些節省直接轉化為實際時間節省:由於MoE操作僅佔前向傳播的43%,12.3%的專家載入減少對應5.4%的牆鍾時間加速。

該方法在專家並行(expert parallelism)環境下同樣有效,但加速效果受專家分片方式影響。由於不同專家的載入節省程度不同,最終加速受限於最慢的並行等級。一種可能的解決方案是將專家按批次重新定位,使每個等級獨立處理子批次。

未來工作可探索連續提示排序(而非固定批次),以更好適配連續批處理系統;或進一步訓練模型以縮小與oracle的差距。總之,輸入重排是一種零成本最佳化,僅需在推理引擎前增加聚類步驟,即可在記憶體頻寬受限的MoE服務場景中獲得顯著吞吐量提升。