EMO:預訓練專家混合模型實現湧現模塊化
艾倫人工智能研究所發佈EMO模型,這是一種端到端預訓練的混合專家(MoE)模型,其模塊結構直接從數據中湧現,無需人工定義先驗。EMO支持僅使用12.5%的專家子集即可保持接近全模型的性能,同時在全專家使用時仍能作為強大的通用模型。相比標準MoE,EMO的專家子集在選擇性使用時性能下降顯著更小。
文章情報
要點
- EMO是一種1B活躍參數、14B總參數的MoE模型,使用128個專家,每個token激活8個。
- 通過文檔級路由約束,EMO的專家集羣形成語義領域(如醫療、新聞),而非低級句法模式。
- 僅用12.5%專家子集即可保持近全模型性能,而標準MoE在此設置下性能急劇下降。
- EMO的模塊選擇成本極低,單樣本或少樣本示例即可識別有效專家子集。
為甚麼重要
這條新聞值得關注,因為EMO是一種1B活躍參數、14B總參數的MoE模型,使用128個專家,每個token激活8個。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
艾倫人工智能研究所(Allen AI)今日發佈了EMO(Emergent Modularity through pretraining mixture of Experts),這是一種新型混合專家(MoE)語言模型,其模塊化結構在預訓練過程中直接從數據中湧現,無需依賴人工定義的領域標籤或先驗知識。EMO的核心創新在於,它能夠在保持全模型性能的同時,支持僅使用一小部分專家(例如12.5%的總專家)來執行特定任務,從而顯著降低計算和內存需求。
傳統的MoE模型雖然理論上允許按需激活少量專家,但在實踐中,不同token通常激活不同的專家,導致完整任務生成過程中仍會使用幾乎所有專家。研究團隊發現,標準MoE的專家往往專門負責低級詞彙模式(如介詞或標點),而非高級語義領域。因此,小規模專家子集無法可靠地獨立工作。
EMO通過引入文檔級路由約束解決了這一問題。在訓練期間,同一文檔中的所有token被限制在共享的專家池中選擇激活專家。路由網絡首先為每個文檔選擇一組專家(例如4個),然後該文檔的所有token只能在此池內路由。這種設計迫使專家集羣學習語義相關的領域特徵,而不是表面模式。為了平衡負載,團隊採用了全局負載均衡策略,在不同文檔間分散專家使用,從而避免模型崩潰。此外,文檔池大小在訓練中隨機採樣,使模型適應不同大小的專家子集。
實驗結果顯示,EMO在通用基準測試中與標準MoE性能相當,但在選擇性使用專家子集時表現出顯著優勢。僅保留12.5%專家(16個)時,EMO的平均性能僅下降約3%;而標準MoE在類似設置下性能急劇下降,甚至接近隨機水平。更重要的是,選擇專家子集非常高效:僅需一個帶有少量示例的提示即可識別出與完整驗證集效果相當的模塊。EMO還兼容現有的專家剪枝方法,如Easy-EP。
可視化分析表明,EMO的token聚類對應有意義的語義領域(如健康、醫學、新聞、政治、電影音樂),而標準MoE的聚類則是介詞、專有名詞、系動詞等。這種語義專化使得選取的專家子集能夠保留真實的能力,而非表面特徵。
艾倫AI已開源EMO的完整模型、訓練代碼和標準MoE基線,以促進社區研究。該工作為構建更模塊化、可部署、可解釋的語言模型邁出了重要一步,未來仍需探索更好的子集選擇與組合方法。