GEM:面向最優LLM資料策展的幾何熵混合
本文提出GEM(幾何熵混合)框架,將資料策展重構為超球面上的變分問題,透過混合平衡正則化器克服聚類坍塌,發現歐幾里得啟發式無法識別的平衡語義結構。結合教師-學生蒸餾擴充套件到網路規模語料,引入幾何影響分數(GIS)用於可解釋的類別生成。在1.1B引數模型上的實驗表明,GEM整合了DoReMi和RegMix等混合策略,平均下游準確率提升達1.2%,為可預測的資料混合提供了魯棒的座標系統。
文章情報
要點
- GEM將資料策展形式化為超球面上的變分問題,利用混合平衡正則化克服聚類坍塌。
- 透過教師-學生蒸餾實現幾何保真度向網路規模語料的擴充套件,並提出GIS用於可解釋類別生成。
- 在1.1B引數模型上,GEM整合到DoReMi和RegMix等策略中,平均下游準確率提升達1.2%。
為什麼重要
這條新聞值得關注,因為GEM將資料策展形式化為超球面上的變分問題,利用混合平衡正則化克服聚類坍塌。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
大型語言模型(LLM)的預訓練效果越來越依賴於資料組成而非單純的資料量。然而,確定最優的資料混合比例一直受到分類缺陷的阻礙:人工分類法存在本體論上的錯位,而基於歐幾里得距離的聚類方法無法處理嵌入向量的各向異性特性。最近,一篇提交至ICML 2026的論文提出了GEM(幾何熵混合)框架,將資料策展重新定義為一個超球面上的變分問題,並引入混合平衡正則化器。該方法透過解耦生成先驗,並利用可證明收斂的MM(極小化-極大化)演算法最佳化目標函式,有效抵消了聚類坍塌現象,從而能夠發現那些歐幾里得啟發式方法無法察覺的平衡語義結構。
為了將這種幾何保真度擴充套件到網路規模的語料庫,研究人員採用了教師-學生蒸餾技術,並提出了幾何影響分數(GIS)用於可解釋的類別生成。GIS能夠量化每個資料點對分類結果的影響,使得生成的類別體系具有良好的解釋性。實驗使用1.1B引數的模型進行,結果表明,當將GEM整合到現有的資料混合策略(如DoReMi和RegMix)中時,它建立了新的最先進水平:平均下游準確率提升了高達1.2%。更重要的是,GEM為可預測的資料混合提供了一個魯棒的座標系統,使得研究者能夠更系統地理解和控制資料組成對模型效能的影響。
這項研究不僅解決了資料分類中的根本問題,還為LLM預訓練的資料策展開闢了新的方向。透過將幾何方法引入資料混合,GEM有望推動更大規模模型的高效訓練,並可能對未來的模型選型、推理成本以及產品能力產生深遠影響。