AI News HubLIVE
站内改写

EMO:預訓練專家混合模型實現湧現模組化

艾倫人工智慧研究所釋出EMO模型,這是一種端到端預訓練的混合專家(MoE)模型,其模組結構直接從資料中湧現,無需人工定義先驗。EMO支援僅使用12.5%的專家子集即可保持接近全模型的效能,同時在全專家使用時仍能作為強大的通用模型。相比標準MoE,EMO的專家子集在選擇性使用時效能下降顯著更小。

文章情報

工程師進階

要點

  • EMO是一種1B活躍引數、14B總引數的MoE模型,使用128個專家,每個token啟用8個。
  • 透過文件級路由約束,EMO的專家叢集形成語義領域(如醫療、新聞),而非低階句法模式。
  • 僅用12.5%專家子集即可保持近全模型效能,而標準MoE在此設定下效能急劇下降。
  • EMO的模組選擇成本極低,單樣本或少樣本示例即可識別有效專家子集。

為什麼重要

這條新聞值得關注,因為EMO是一種1B活躍引數、14B總引數的MoE模型,使用128個專家,每個token啟用8個。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

艾倫人工智慧研究所(Allen AI)今日釋出了EMO(Emergent Modularity through pretraining mixture of Experts),這是一種新型混合專家(MoE)語言模型,其模組化結構在預訓練過程中直接從資料中湧現,無需依賴人工定義的領域標籤或先驗知識。EMO的核心創新在於,它能夠在保持全模型效能的同時,支援僅使用一小部分專家(例如12.5%的總專家)來執行特定任務,從而顯著降低計算和記憶體需求。

傳統的MoE模型雖然理論上允許按需啟用少量專家,但在實踐中,不同token通常啟用不同的專家,導致完整任務生成過程中仍會使用幾乎所有專家。研究團隊發現,標準MoE的專家往往專門負責低階詞彙模式(如介詞或標點),而非高階語義領域。因此,小規模專家子集無法可靠地獨立工作。

EMO透過引入文件級路由約束解決了這一問題。在訓練期間,同一文件中的所有token被限制在共享的專家池中選擇啟用專家。路由網路首先為每個文件選擇一組專家(例如4個),然後該文件的所有token只能在此池內路由。這種設計迫使專家叢集學習語義相關的領域特徵,而不是表面模式。為了平衡負載,團隊採用了全域性負載均衡策略,在不同文件間分散專家使用,從而避免模型崩潰。此外,文件池大小在訓練中隨機取樣,使模型適應不同大小的專家子集。

實驗結果顯示,EMO在通用基準測試中與標準MoE效能相當,但在選擇性使用專家子集時表現出顯著優勢。僅保留12.5%專家(16個)時,EMO的平均效能僅下降約3%;而標準MoE在類似設定下效能急劇下降,甚至接近隨機水平。更重要的是,選擇專家子集非常高效:僅需一個帶有少量示例的提示即可識別出與完整驗證集效果相當的模組。EMO還相容現有的專家剪枝方法,如Easy-EP。

視覺化分析表明,EMO的token聚類對應有意義的語義領域(如健康、醫學、新聞、政治、電影音樂),而標準MoE的聚類則是介詞、專有名詞、系動詞等。這種語義專化使得選取的專家子集能夠保留真實的能力,而非表面特徵。

艾倫AI已開源EMO的完整模型、訓練程式碼和標準MoE基線,以促進社群研究。該工作為構建更模組化、可部署、可解釋的語言模型邁出了重要一步,未來仍需探索更好的子集選擇與組合方法。