2026-06-08站内改写2 分鐘閱讀更新: 2026-06-08

MoE專家共同啟用：重排輸入帶來輕鬆吞吐量提升

Doubleword的批次推理服務透過重排輸入順序，使Mixture-of-Experts模型在推理時減少專家載入次數，從而在不修改模型或核心的情況下實現吞吐量提升。實驗表明，使用嵌入模型對提示進行聚類可減少約15%的專家載入，進而帶來顯著的加速效果。

來源Hacker News AI作者: kkm

Doubleword的批次推理服務透過最佳化輸入順序，在不修改模型或核心的前提下提升了Mixture-of-Experts（MoE）模型的推理吞吐量。MoE模型雖然因稀疏專家權重而訓練快速，但在推理時，每個請求在不同層需要載入不同的專家權重，導致記憶體頻寬成為瓶頸，吞吐量低於密集模型。

為解決這一問題，雙字科技提出將相似提示重新排序並分批處理，使得同一批次內的請求儘可能共享專家權重，從而減少每輪前向傳播中需要載入的專家總數。實驗採用Qwen/Qwen3.5-35B-A3B模型（256個專家，每層選Top-8，共40層MoE層），對1000條典型提示進行測試。透過貪婪演算法構建的“專家感知”批次（即每個批次內專家重疊最大化）相比隨機批次減少了21.3%的專家載入次數。

由於實際推理時無法預知專家啟用情況，研究團隊使用BAAI/bge-small-en-v1.5嵌入模型，基於提示嵌入的餘弦相似度進行聚類。這種啟發式方法節省了12.4%的專家載入，達到了最優批次（oracle）效果的58.3%。進一步，透過微調BGE模型，使其嵌入向量的餘弦相似度更貼近專家啟用的Jaccard重疊度，在3萬個Perfectblend樣本訓練後，專家載入節省提升至15.6%，達到oracle的73.6%。

在更困難的Wildchat聊天資料集上（僅包含聊天提示，同質性高），微調模型仍能節省12.3%的專家載入，優於簡單按類別分批的基線。這些節省直接轉化為實際時間節省：由於MoE操作僅佔前向傳播的43%，12.3%的專家載入減少對應5.4%的牆鍾時間加速。

該方法在專家並行（expert parallelism）環境下同樣有效，但加速效果受專家分片方式影響。由於不同專家的載入節省程度不同，最終加速受限於最慢的並行等級。一種可能的解決方案是將專家按批次重新定位，使每個等級獨立處理子批次。

未來工作可探索連續提示排序（而非固定批次），以更好適配連續批處理系統；或進一步訓練模型以縮小與oracle的差距。總之，輸入重排是一種零成本最佳化，僅需在推理引擎前增加聚類步驟，即可在記憶體頻寬受限的MoE服務場景中獲得顯著吞吐量提升。