2026-05-27 13:00 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 22:03 UTC+9

GEM：最適なLLMデータキュレーションのための幾何学的エントロピーミキシング

本論文では、データキュレーションを超球面上の変分問題として再定式化し、混合バランス正則化器を追加したGEM（幾何学的エントロピーミキシング）フレームワークを提案する。クラスター崩壊を克服し、ユークリッド発見法では見えないバランスの取れた意味構造を発見する。教師-学生蒸留によるスケーラビリティと解釈可能な分類生成のための幾何学的影響スコア（GIS）を導入し、DoReMiやRegMixなどの混合戦略に統合することで、1.1Bパラメータモデルでの平均下流精度を最大1.2%向上させる。

ソースarXiv Machine Learning著者: Yue Min, Ziyun Qiao, Ruining Chen, Yujun Li

記事インテリジェンス

エンジニア上級

要点

GEMはデータキュレーションを超球面上の変分問題と混合バランス正則化器で再定式化し、クラスター崩壊を克服する。
教師-学生蒸留によるスケーリングと解釈可能な分類生成のためのGISを導入。
DoReMiやRegMixに統合することで、1.1Bパラメータモデルでの平均下流精度を最大1.2%向上させる。

重要な理由

このニュースが重要なのは、GEMはデータキュレーションを超球面上の変分問題と混合バランス正則化器で再定式化し、クラスター崩壊を克服するためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

大規模言語モデル（LLM）の事前学習効果は、単なるデータ量ではなくデータ構成にますます依存するようになっている。しかし、最適なデータ混合は分類の欠陥によって妨げられている。人間の分類法は存在論的なずれに悩まされ、ユークリッドクラスタリングは埋め込みの異方性に対処できない。ICML 2026に投稿された最近の論文では、GEM（幾何学的エントロピーミキシング）フレームワークを提案し、データキュレーションを超球面上の変分問題と混合バランス正則化器で再定式化している。生成事前分布を分離し、証明可能なMM（最小化-最大化）アルゴリズムで目的関数を最適化することで、GEMはクラスター崩壊を効果的に打ち消し、ユークリッド発見法では見えないバランスの取れた意味構造を発見する。

この幾何学的忠実度をウェブスケールコーパスに拡張するため、教師-学生蒸留を採用し、解釈可能な分類生成のための幾何学的影響スコア（GIS）を導入している。GISは各データポイントが分類結果に与える影響を定量化し、生成された分類体系に高い解釈性をもたらす。1.1Bパラメータモデルを用いた実験では、GEMをDoReMiやRegMixなどの混合戦略に統合することで、平均下流精度が最大1.2%向上し、新しい最先端を確立した。さらに、GEMは予測可能なデータ混合のための堅牢な座標系を提供し、研究者がデータ構成がモデル性能に与える影響をより体系的に理解し制御することを可能にする。

この研究はデータ分類の根本的な問題に対処するだけでなく、LLM事前学習のデータキュレーションに新たな方向性を示している。幾何学的手法をデータ混合に導入することで、GEMはより大規模なモデルの効率的な訓練を促進し、将来的にはモデル選定や推論コスト、製品能力に大きな影響を与える可能性がある。