AI News HubLIVE
站内改写

GEM:面向最優LLM數據策展的幾何熵混合

本文提出GEM(幾何熵混合)框架,將數據策展重構為超球面上的變分問題,通過混合平衡正則化器克服聚類坍塌,發現歐幾里得啓發式無法識別的平衡語義結構。結合教師-學生蒸餾擴展到網絡規模語料,引入幾何影響分數(GIS)用於可解釋的類別生成。在1.1B參數模型上的實驗表明,GEM集成了DoReMi和RegMix等混合策略,平均下游準確率提升達1.2%,為可預測的數據混合提供了魯棒的座標系統。

文章情報

工程師進階

要點

  • GEM將數據策展形式化為超球面上的變分問題,利用混合平衡正則化克服聚類坍塌。
  • 通過教師-學生蒸餾實現幾何保真度向網絡規模語料的擴展,並提出GIS用於可解釋類別生成。
  • 在1.1B參數模型上,GEM集成到DoReMi和RegMix等策略中,平均下游準確率提升達1.2%。

為甚麼重要

這條新聞值得關注,因為GEM將數據策展形式化為超球面上的變分問題,利用混合平衡正則化克服聚類坍塌。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

大型語言模型(LLM)的預訓練效果越來越依賴於數據組成而非單純的數據量。然而,確定最優的數據混合比例一直受到分類缺陷的阻礙:人工分類法存在本體論上的錯位,而基於歐幾里得距離的聚類方法無法處理嵌入向量的各向異性特性。最近,一篇提交至ICML 2026的論文提出了GEM(幾何熵混合)框架,將數據策展重新定義為一個超球面上的變分問題,並引入混合平衡正則化器。該方法通過解耦生成先驗,並利用可證明收斂的MM(極小化-極大化)算法優化目標函數,有效抵消了聚類坍塌現象,從而能夠發現那些歐幾里得啓發式方法無法察覺的平衡語義結構。

為了將這種幾何保真度擴展到網絡規模的語料庫,研究人員採用了教師-學生蒸餾技術,並提出了幾何影響分數(GIS)用於可解釋的類別生成。GIS能夠量化每個數據點對分類結果的影響,使得生成的類別體系具有良好的解釋性。實驗使用1.1B參數的模型進行,結果表明,當將GEM集成到現有的數據混合策略(如DoReMi和RegMix)中時,它建立了新的最先進水平:平均下游準確率提升了高達1.2%。更重要的是,GEM為可預測的數據混合提供了一個魯棒的座標系統,使得研究者能夠更系統地理解和控制數據組成對模型性能的影響。

這項研究不僅解決了數據分類中的根本問題,還為LLM預訓練的數據策展開闢了新的方向。通過將幾何方法引入數據混合,GEM有望推動更大規模模型的高效訓練,並可能對未來的模型選型、推理成本以及產品能力產生深遠影響。