AI News HubLIVE
站内改写3 分で読了

「North Mini Code」登場:Cohereの30BオープンウェイトMixture-of-Expertsモデル、アクティブパラメータ3Bでエージェンティックコーディングを実現

Cohereは初の開発者向けコーディングモデル「North Mini Code」を公開しました。総パラメータ30B、トークンあたり3Bのアクティブパラメータを持つMixture-of-Expertsモデルで、1枚のH100 GPUで動作し、256Kのコンテキスト長をサポートします。コード生成、エージェンティックソフトウェアエンジニアリング、ターミナルタスクに最適化され、ウェイトはApache 2.0で公開されています。

ソースMarkTechPost著者: Asif Razzaq

今週、Cohere AIチームは開発者向け初のコーディングモデル「North Mini Code」をリリースしました。このモデルはオープンウェイトで、ソフトウェアエンジニアに焦点を当てています。Mixture-of-Experts(MoE)アーキテクチャを採用し、総パラメータ数は30B、各トークンでアクティブになるのはわずか3Bです。

今回のリリースは「 sovereign AI(自律型AI)」のコンセプトに基づいています。基本的な考え方は、高性能なモデルを自社の環境で実行できるようにすることです。小型で効率的なコーディングモデルにより、大規模なGPUクラスターを必要とせずにセルフホスティングが可能になり、North Mini Codeはまさにそのギャップを埋めることを目指しています。

アーキテクチャ

North Mini CodeはデコーダーのみのTransformerで、スパースMoE層を採用しています。アテンションは3:1の比率で2種類を交互に使用します。スライディングウィンドウアテンションはRoPE位置エンコーディングを使用し、グローバルアテンションは位置エンベディングを使用しません。フィードフォワードブロックには128のエキスパートがあり、トークンごとに8つが活性化されます。各エキスパートはSwiGLU活性化関数を持つFFNです。ルーターはtop-k選択の前にシグモイドを適用します。スパース層の前に1つのデンス層が配置されており、アクティブな計算量を抑えつつ総容量を拡大しています。ウェイトはBF16形式で公開されています。

ポストトレーニングは2段階で行われました。最初に2段階カスケード教師ありファインチューニング(SFT)、次に検証可能な報酬を用いた強化学習(RLVR)です。ポストトレーニングはエージェンティックコーディングに焦点を当てており、さらにモデルはインターリーブされた思考とネイティブツール使用をサポートしています。

ベンチマーク

Cohereによると、Artificial Analysis Coding Indexで33.4を記録し、同程度のサイズのモデルの中で競争力のある位置にあります。評価にはSWE-Bench Verified、SWE-Bench Pro、Terminal-Bench v2、Terminal-Bench Hard、SciCode、LiveCodeBench v6が使用されました。SWE-BenchではSWE-agent harness v1.1.0、Terminal-Bench v2ではシンプルなReAct harness、Terminal-Bench HardではTerminus-2 harnessが使用されています。各ベンチマークは3つのシードで実行され平均値が取られ、サンプリングは温度1.0、top_p 0.95で行われました。

パフォーマンス

Cohereの内部テストでは、North Mini Codeは同じ並行性とハードウェア条件で、Devstral Small 2と比較して最大2.8倍の出力スループットを達成し、トークン間レイテンシも30%改善しました。ただし、最初のトークン生成時間(Time-to-first-token)ではDevstral Small 2にわずかに劣ります。

ユースケース

CohereはNorth Mini Codeをエージェンティックワークフロー向けに設計しました。主な3つのパターンは以下の通りです:

  • サブエージェントオーケストレーション:メインエージェントがサブタスクをヘルパーに委任します。例:あるエージェントが単体テストを書き、別のエージェントが失敗したコードを修正します。
  • システムアーキテクチャマッピング:モデルがリポジトリを読み取り、その構造をスケッチします。例:大規模リファクタリングの前にサービス間の呼び出し関係を追跡します。
  • コードレビュー:モデルがdiffをスキャンして問題を特定します。例:マージ前に保護されていないnull参照をフラグします。

また、ターミナルタスク(ファイル一覧、ビルド実行、エラー解析)にも適しています。

始め方

最も簡単な方法はHugging Face Transformersを使用することです。このモデルをサポートするにはTransformersをソースからインストールする必要があります。推奨サンプリングは温度1.0、top_p 0.95です。サービングにはvLLMを使用でき、正確なレスポンス解析のためにCohereのmelodyライブラリが必要です。量子化バージョンはOllama、LM Studio、llama.cppで利用可能です。また、OpenCodeやHugging Face Spaceで無料で試すこともできます。

主なポイント

Cohere初のコーディングモデルNorth Mini Codeは、総パラメータ30B、アクティブ3BのMoEモデルで、1枚のH100(FP8)で動作し、256Kコンテキストと64K最大出力をサポートします。ウェイトはApache 2.0で公開されています(Hugging Faceカードには非商用の注記あり)。Artificial Analysis Coding Indexで33.4を記録し、Devstral Small 2比で最大2.8倍のスループットを達成。エージェンティックコーディング向けに構築され、サブエージェントオーケストレーション、アーキテクチャマッピング、コードレビュー、ネイティブツール使用を備えています。