2026-05-27 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

GEM：面向最優LLM資料策展的幾何熵混合

本文提出GEM（幾何熵混合）框架，將資料策展重構為超球面上的變分問題，透過混合平衡正則化器克服聚類坍塌，發現歐幾里得啟發式無法識別的平衡語義結構。結合教師-學生蒸餾擴充套件到網路規模語料，引入幾何影響分數（GIS）用於可解釋的類別生成。在1.1B引數模型上的實驗表明，GEM整合了DoReMi和RegMix等混合策略，平均下游準確率提升達1.2%，為可預測的資料混合提供了魯棒的座標系統。

來源arXiv Machine Learning作者: Yue Min, Ziyun Qiao, Ruining Chen, Yujun Li

大型語言模型（LLM）的預訓練效果越來越依賴於資料組成而非單純的資料量。然而，確定最優的資料混合比例一直受到分類缺陷的阻礙：人工分類法存在本體論上的錯位，而基於歐幾里得距離的聚類方法無法處理嵌入向量的各向異性特性。最近，一篇提交至ICML 2026的論文提出了GEM（幾何熵混合）框架，將資料策展重新定義為一個超球面上的變分問題，並引入混合平衡正則化器。該方法透過解耦生成先驗，並利用可證明收斂的MM（極小化-極大化）演算法最佳化目標函式，有效抵消了聚類坍塌現象，從而能夠發現那些歐幾里得啟發式方法無法察覺的平衡語義結構。

為了將這種幾何保真度擴充套件到網路規模的語料庫，研究人員採用了教師-學生蒸餾技術，並提出了幾何影響分數（GIS）用於可解釋的類別生成。GIS能夠量化每個資料點對分類結果的影響，使得生成的類別體系具有良好的解釋性。實驗使用1.1B引數的模型進行，結果表明，當將GEM整合到現有的資料混合策略（如DoReMi和RegMix）中時，它建立了新的最先進水平：平均下游準確率提升了高達1.2%。更重要的是，GEM為可預測的資料混合提供了一個魯棒的座標系統，使得研究者能夠更系統地理解和控制資料組成對模型效能的影響。

這項研究不僅解決了資料分類中的根本問題，還為LLM預訓練的資料策展開闢了新的方向。透過將幾何方法引入資料混合，GEM有望推動更大規模模型的高效訓練，並可能對未來的模型選型、推理成本以及產品能力產生深遠影響。