2026-05-27 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

GEM：面向最优LLM数据策展的几何熵混合

本文提出GEM（几何熵混合）框架，将数据策展重构为超球面上的变分问题，通过混合平衡正则化器克服聚类坍塌，发现欧几里得启发式无法识别的平衡语义结构。结合教师-学生蒸馏扩展到网络规模语料，引入几何影响分数（GIS）用于可解释的类别生成。在1.1B参数模型上的实验表明，GEM集成了DoReMi和RegMix等混合策略，平均下游准确率提升达1.2%，为可预测的数据混合提供了鲁棒的坐标系统。

来源arXiv Machine Learning作者: Yue Min, Ziyun Qiao, Ruining Chen, Yujun Li

大型语言模型（LLM）的预训练效果越来越依赖于数据组成而非单纯的数据量。然而，确定最优的数据混合比例一直受到分类缺陷的阻碍：人工分类法存在本体论上的错位，而基于欧几里得距离的聚类方法无法处理嵌入向量的各向异性特性。最近，一篇提交至ICML 2026的论文提出了GEM（几何熵混合）框架，将数据策展重新定义为一个超球面上的变分问题，并引入混合平衡正则化器。该方法通过解耦生成先验，并利用可证明收敛的MM（极小化-极大化）算法优化目标函数，有效抵消了聚类坍塌现象，从而能够发现那些欧几里得启发式方法无法察觉的平衡语义结构。

为了将这种几何保真度扩展到网络规模的语料库，研究人员采用了教师-学生蒸馏技术，并提出了几何影响分数（GIS）用于可解释的类别生成。GIS能够量化每个数据点对分类结果的影响，使得生成的类别体系具有良好的解释性。实验使用1.1B参数的模型进行，结果表明，当将GEM集成到现有的数据混合策略（如DoReMi和RegMix）中时，它建立了新的最先进水平：平均下游准确率提升了高达1.2%。更重要的是，GEM为可预测的数据混合提供了一个鲁棒的坐标系统，使得研究者能够更系统地理解和控制数据组成对模型性能的影响。

这项研究不仅解决了数据分类中的根本问题，还为LLM预训练的数据策展开辟了新的方向。通过将几何方法引入数据混合，GEM有望推动更大规模模型的高效训练，并可能对未来的模型选型、推理成本以及产品能力产生深远影响。