JetBrains、Mellum2を発表:120億パラメータの混合エキスパートモデル
JetBrainsは、低レイテンシのテキストおよびコードワークロード向けに最適化された120億パラメータの混合エキスパート(MoE)モデルMellum2をリリースしました。トークンあたり25億パラメータのみを活性化し、ルーティング、RAG、サブエージェント、プライベートデプロイメントに優れ、同等のモデルと比較して2倍以上の推論速度を実現します。Apache 2.0ライセンスで公開されています。
JetBrainsは本日、120億(12B)パラメータの混合エキスパート(MoE)モデルMellum2を発表しました。このモデルは自然言語とコードを対象にゼロからトレーニングされ、トークンあたり約25億(2.5B)パラメータのみを活性化することで、高スループットかつ低レイテンシの推論を実現します。Mellum2はApache 2.0ライセンスの下で公開されており、さまざまなAIワークロードに対して効率的でデプロイしやすいソリューションを提供します。
Mellum2は、ルーティング、検索拡張生成(RAG)、サブエージェント、プライベートデプロイメントなど、現代のAIシステムで一般的な複数モデル呼び出しのシナリオをサポートするように設計されています。同様のサイズのモデルと比較して、Mellum2はベンチマークで競争力のあるパフォーマンスを発揮しつつ、2倍以上の推論速度を達成しており、高スループットの本番環境に適しています。
アーキテクチャ面では、Mellum2はMoEアーキテクチャを採用し、総パラメータ数は12Bですが、各トークンの推論時には2.5Bパラメータのみが活性化されます。この設計により、モデル容量を維持しながら計算コストとレイテンシを大幅に削減します。マルチモーダルモデルとは異なり、Mellum2はテキストとコードに特化しており、ソフトウェアエンジニアリングタスクにおいてコンパクトで効率的です。
JetBrainsチームは技術報告書で、コード生成、推論、科学、数学のベンチマークにおけるMellum2のパフォーマンスを詳細に示しています。報告書によると、Mellum2は優れたパフォーマンスに加えて、同規模の高密度モデルよりもはるかに高速な推論を実現します。
Mellum2の主なユースケースは次のとおりです:マルチモデルシステムにおける軽量ルーティングおよびオーケストレーションモデルとして、プロンプト分類、ツール選択、中間制御フローを担当;レイテンシに敏感なRAGパイプラインでのコンテキスト圧縮、要約、検索後処理;サブエージェントとしての計画、検証、変換などのタスク処理による大規模モデルへの依存低減;そして、専有コードや内部データを扱うセルフホスト環境での利用です。
JetBrainsは、AIシステムが成熟するにつれて、単一のフロンティアモデルですべてを賄うのではなく、検索器、ルーター、コード認識モデル、検証器、ツール呼び出し器、大規模推論モデルなど、複数の専門コンポーネントが連携するアーキテクチャが重要になると強調しています。Mellum2は「フォーカル」モデルとして位置づけられ、高頻度タスクに特化することで、AIスタック全体をより高速かつ安価に、そして制御しやすくすることを目指しています。
ソフトウェアエンジニアリング向けのAIシステムを構築している開発者は、IDE、RAGパイプライン、エージェントワークフロー、プライベートインフラストラクチャのいずれにおいても、Mellum2をすぐに試すことができます。モデルはHugging Faceでダウンロード可能で、詳細な技術報告書はarXivで公開されています。