2026-05-27 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

GEM：面向最優LLM數據策展的幾何熵混合

本文提出GEM（幾何熵混合）框架，將數據策展重構為超球面上的變分問題，通過混合平衡正則化器克服聚類坍塌，發現歐幾里得啓發式無法識別的平衡語義結構。結合教師-學生蒸餾擴展到網絡規模語料，引入幾何影響分數（GIS）用於可解釋的類別生成。在1.1B參數模型上的實驗表明，GEM集成了DoReMi和RegMix等混合策略，平均下游準確率提升達1.2%，為可預測的數據混合提供了魯棒的座標系統。

來源arXiv Machine Learning作者: Yue Min, Ziyun Qiao, Ruining Chen, Yujun Li

大型語言模型（LLM）的預訓練效果越來越依賴於數據組成而非單純的數據量。然而，確定最優的數據混合比例一直受到分類缺陷的阻礙：人工分類法存在本體論上的錯位，而基於歐幾里得距離的聚類方法無法處理嵌入向量的各向異性特性。最近，一篇提交至ICML 2026的論文提出了GEM（幾何熵混合）框架，將數據策展重新定義為一個超球面上的變分問題，並引入混合平衡正則化器。該方法通過解耦生成先驗，並利用可證明收斂的MM（極小化-極大化）算法優化目標函數，有效抵消了聚類坍塌現象，從而能夠發現那些歐幾里得啓發式方法無法察覺的平衡語義結構。

為了將這種幾何保真度擴展到網絡規模的語料庫，研究人員採用了教師-學生蒸餾技術，並提出了幾何影響分數（GIS）用於可解釋的類別生成。GIS能夠量化每個數據點對分類結果的影響，使得生成的類別體系具有良好的解釋性。實驗使用1.1B參數的模型進行，結果表明，當將GEM集成到現有的數據混合策略（如DoReMi和RegMix）中時，它建立了新的最先進水平：平均下游準確率提升了高達1.2%。更重要的是，GEM為可預測的數據混合提供了一個魯棒的座標系統，使得研究者能夠更系統地理解和控制數據組成對模型性能的影響。

這項研究不僅解決了數據分類中的根本問題，還為LLM預訓練的數據策展開闢了新的方向。通過將幾何方法引入數據混合，GEM有望推動更大規模模型的高效訓練，並可能對未來的模型選型、推理成本以及產品能力產生深遠影響。