AI News HubLIVE
站内改写

GEM:面向最优LLM数据策展的几何熵混合

本文提出GEM(几何熵混合)框架,将数据策展重构为超球面上的变分问题,通过混合平衡正则化器克服聚类坍塌,发现欧几里得启发式无法识别的平衡语义结构。结合教师-学生蒸馏扩展到网络规模语料,引入几何影响分数(GIS)用于可解释的类别生成。在1.1B参数模型上的实验表明,GEM集成了DoReMi和RegMix等混合策略,平均下游准确率提升达1.2%,为可预测的数据混合提供了鲁棒的坐标系统。

文章情报

工程师进阶

要点

  • GEM将数据策展形式化为超球面上的变分问题,利用混合平衡正则化克服聚类坍塌。
  • 通过教师-学生蒸馏实现几何保真度向网络规模语料的扩展,并提出GIS用于可解释类别生成。
  • 在1.1B参数模型上,GEM集成到DoReMi和RegMix等策略中,平均下游准确率提升达1.2%。

为什么重要

这条新闻值得关注,因为GEM将数据策展形式化为超球面上的变分问题,利用混合平衡正则化克服聚类坍塌。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

大型语言模型(LLM)的预训练效果越来越依赖于数据组成而非单纯的数据量。然而,确定最优的数据混合比例一直受到分类缺陷的阻碍:人工分类法存在本体论上的错位,而基于欧几里得距离的聚类方法无法处理嵌入向量的各向异性特性。最近,一篇提交至ICML 2026的论文提出了GEM(几何熵混合)框架,将数据策展重新定义为一个超球面上的变分问题,并引入混合平衡正则化器。该方法通过解耦生成先验,并利用可证明收敛的MM(极小化-极大化)算法优化目标函数,有效抵消了聚类坍塌现象,从而能够发现那些欧几里得启发式方法无法察觉的平衡语义结构。

为了将这种几何保真度扩展到网络规模的语料库,研究人员采用了教师-学生蒸馏技术,并提出了几何影响分数(GIS)用于可解释的类别生成。GIS能够量化每个数据点对分类结果的影响,使得生成的类别体系具有良好的解释性。实验使用1.1B参数的模型进行,结果表明,当将GEM集成到现有的数据混合策略(如DoReMi和RegMix)中时,它建立了新的最先进水平:平均下游准确率提升了高达1.2%。更重要的是,GEM为可预测的数据混合提供了一个鲁棒的坐标系统,使得研究者能够更系统地理解和控制数据组成对模型性能的影响。

这项研究不仅解决了数据分类中的根本问题,还为LLM预训练的数据策展开辟了新的方向。通过将几何方法引入数据混合,GEM有望推动更大规模模型的高效训练,并可能对未来的模型选型、推理成本以及产品能力产生深远影响。