2026-05-08站内改写

EMO: 創発的なモジュール性を実現する事前学習済み混合専門家モデル

Allen AIがEMOモデルを公開。これは、人間が定義した事前知識に頼らず、データから直接モジュール構造が創発するようにエンドツーエンドで事前学習された混合専門家（MoE）モデルです。EMOは、タスクごとに専門家のわずか12.5%を使用しながらも、フルモデルに近い性能を維持し、すべての専門家を使用した場合には強力な汎用モデルとして機能します。標準MoEとは異なり、EMOの専門家サブセットは選択的に使用しても性能低下がわずかです。

記事インテリジェンス

エンジニア上級

要点

EMOは1Bアクティブ、14B総パラメータのMoEで、128の専門家を持ち、トークンごとに8つが活性化される。
文書レベルのルーティング制約により、専門家クラスターは低レベルの構文パターンではなく、意味的なドメイン（健康、ニュースなど）を形成する。
専門家のわずか12.5%でフルモデルに近い性能を維持する一方、標準MoEは急激に性能が低下する。
専門家の選択は非常に効率的で、少数ショットの例1つで完全な検証セットと同等のモジュールを特定できる。

重要な理由

このニュースが重要なのは、EMOは1Bアクティブ、14B総パラメータのMoEで、128の専門家を持ち、トークンごとに8つが活性化されるためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Allen AIは本日、EMO（Emergent Modularity through pretraining mixture of Experts）を公開しました。これは、事前学習中にモジュール構造がデータから直接創発するように設計された新しい混合専門家（MoE）言語モデルです。EMOの最大の特徴は、全モデルの性能を維持しつつ、特定のタスクに対して専門家のごく一部（例えば12.5%）のみを使用できる点にあり、これにより計算リソースとメモリを大幅に削減できます。

従来のMoEモデルは、原理的には少数の専門家のみを活性化できますが、実際には異なるトークンが異なる専門家を活性化するため、結局ほとんどの専門家が使用されていました。研究チームは、標準MoEの専門家が高次の意味ドメインではなく、前置詞や句読点などの低レベルの語彙パターンに特化していることを発見しました。そのため、小さな専門家サブセットでは信頼性の高い動作ができませんでした。

EMOは文書レベルのルーティング制約を導入することでこの問題を解決しました。訓練中、同じ文書内の全トークンは共有の専門家プールからのみ専門家を選択するように制限されます。ルーティングネットワークはまず各文書に専門家のサブセット（例えば4つ）を選択し、その後文書内の全トークンがそのプール内でのみルーティングされます。この設計により、専門家クラスターは表面パターンではなく、意味的に関連するドメインを学習するようになります。負荷分散を達成するために、チームはグローバルな負荷分散戦略を採用し、異なる文書間で専門家の使用を分散させました。また、文書プールのサイズは訓練中にランダムにサンプリングされ、モデルが様々なサイズの専門家サブセットに適応できるようにしています。

実験結果は、EMOが汎用ベンチマークで標準MoEと同等の性能を示す一方、専門家サブセットの選択的使用において顕著な優位性を持つことを示しています。専門家の12.5%のみ（16個）を保持した場合、EMOの平均性能は約3%しか低下しません。一方、標準MoEは同様の設定で性能が急激に低下し、ランダムに近くなります。さらに、専門家サブセットの選択は非常に効率的で、少数の例を含む単一のプロンプトで、完全な検証セットと同等のモジュールを特定できます。EMOは既存の専門家刈り込み手法（Easy-EPなど）とも互換性があります。

可視化分析により、EMOのトークンクラスタリングは健康、医学、ニュース、政治、映画音楽などの意味的ドメインに対応し、標準MoEのクラスタリングが前置詞、固有名詞、コピュラ動詞などの構文特徴であるのとは対照的です。この意味的特殊化により、選択された専門家サブセットは真の能力を保持します。

Allen AIは、EMOの完全モデル、訓練コード、および標準MoEベースラインをオープンソースとして公開し、コミュニティの研究を促進しています。この研究は、よりモジュール化され、展開・解釈が容易な言語モデルを構築するための重要な一歩です。今後の課題として、専門家サブセットの選択と構成の改善、モジュール更新時の全モデルへの影響軽減、モジュール構造を活用した解釈可能性と制御の向上が挙げられます。