2026-06-11站内改写3 分で読了更新: 2026-06-12

「North Mini Code」登場：Cohereの30BオープンウェイトMixture-of-Expertsモデル、アクティブパラメータ3Bでエージェンティックコーディングを実現

Cohereは初の開発者向けコーディングモデル「North Mini Code」を公開しました。総パラメータ30B、トークンあたり3Bのアクティブパラメータを持つMixture-of-Expertsモデルで、1枚のH100 GPUで動作し、256Kのコンテキスト長をサポートします。コード生成、エージェンティックソフトウェアエンジニアリング、ターミナルタスクに最適化され、ウェイトはApache 2.0で公開されています。

ソースMarkTechPost著者: Asif Razzaq

記事インテリジェンス

エンジニア上級

要点

North Mini CodeはCohere初のコーディングモデル、総パラメータ30B、アクティブ3B、256Kコンテキストと64K最大出力をサポート。
1枚のH100（FP8）で動作、ウェイトはApache 2.0でHugging Face、Cohere APIなどから利用可能。
Artificial Analysis Coding Indexで33.4を記録、Devstral Small 2比で最大2.8倍のスループット。
エージェンティックワークフロー向け：サブエージェントオーケストレーション、アーキテクチャマッピング、コードレビュー、ネイティブツール使用。

重要な理由

このニュースが重要なのは、North Mini CodeはCohere初のコーディングモデル、総パラメータ30B、アクティブ3B、256Kコンテキストと64K最大出力をサポートためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

今週、Cohere AIチームは開発者向け初のコーディングモデル「North Mini Code」をリリースしました。このモデルはオープンウェイトで、ソフトウェアエンジニアに焦点を当てています。Mixture-of-Experts（MoE）アーキテクチャを採用し、総パラメータ数は30B、各トークンでアクティブになるのはわずか3Bです。

今回のリリースは「 sovereign AI（自律型AI）」のコンセプトに基づいています。基本的な考え方は、高性能なモデルを自社の環境で実行できるようにすることです。小型で効率的なコーディングモデルにより、大規模なGPUクラスターを必要とせずにセルフホスティングが可能になり、North Mini Codeはまさにそのギャップを埋めることを目指しています。

アーキテクチャ

North Mini CodeはデコーダーのみのTransformerで、スパースMoE層を採用しています。アテンションは3:1の比率で2種類を交互に使用します。スライディングウィンドウアテンションはRoPE位置エンコーディングを使用し、グローバルアテンションは位置エンベディングを使用しません。フィードフォワードブロックには128のエキスパートがあり、トークンごとに8つが活性化されます。各エキスパートはSwiGLU活性化関数を持つFFNです。ルーターはtop-k選択の前にシグモイドを適用します。スパース層の前に1つのデンス層が配置されており、アクティブな計算量を抑えつつ総容量を拡大しています。ウェイトはBF16形式で公開されています。

ポストトレーニングは2段階で行われました。最初に2段階カスケード教師ありファインチューニング（SFT）、次に検証可能な報酬を用いた強化学習（RLVR）です。ポストトレーニングはエージェンティックコーディングに焦点を当てており、さらにモデルはインターリーブされた思考とネイティブツール使用をサポートしています。

ベンチマーク

Cohereによると、Artificial Analysis Coding Indexで33.4を記録し、同程度のサイズのモデルの中で競争力のある位置にあります。評価にはSWE-Bench Verified、SWE-Bench Pro、Terminal-Bench v2、Terminal-Bench Hard、SciCode、LiveCodeBench v6が使用されました。SWE-BenchではSWE-agent harness v1.1.0、Terminal-Bench v2ではシンプルなReAct harness、Terminal-Bench HardではTerminus-2 harnessが使用されています。各ベンチマークは3つのシードで実行され平均値が取られ、サンプリングは温度1.0、top_p 0.95で行われました。

パフォーマンス

Cohereの内部テストでは、North Mini Codeは同じ並行性とハードウェア条件で、Devstral Small 2と比較して最大2.8倍の出力スループットを達成し、トークン間レイテンシも30%改善しました。ただし、最初のトークン生成時間（Time-to-first-token）ではDevstral Small 2にわずかに劣ります。

ユースケース

CohereはNorth Mini Codeをエージェンティックワークフロー向けに設計しました。主な3つのパターンは以下の通りです：

サブエージェントオーケストレーション：メインエージェントがサブタスクをヘルパーに委任します。例：あるエージェントが単体テストを書き、別のエージェントが失敗したコードを修正します。
システムアーキテクチャマッピング：モデルがリポジトリを読み取り、その構造をスケッチします。例：大規模リファクタリングの前にサービス間の呼び出し関係を追跡します。
コードレビュー：モデルがdiffをスキャンして問題を特定します。例：マージ前に保護されていないnull参照をフラグします。

また、ターミナルタスク（ファイル一覧、ビルド実行、エラー解析）にも適しています。

始め方

最も簡単な方法はHugging Face Transformersを使用することです。このモデルをサポートするにはTransformersをソースからインストールする必要があります。推奨サンプリングは温度1.0、top_p 0.95です。サービングにはvLLMを使用でき、正確なレスポンス解析のためにCohereのmelodyライブラリが必要です。量子化バージョンはOllama、LM Studio、llama.cppで利用可能です。また、OpenCodeやHugging Face Spaceで無料で試すこともできます。

主なポイント

Cohere初のコーディングモデルNorth Mini Codeは、総パラメータ30B、アクティブ3BのMoEモデルで、1枚のH100（FP8）で動作し、256Kコンテキストと64K最大出力をサポートします。ウェイトはApache 2.0で公開されています（Hugging Faceカードには非商用の注記あり）。Artificial Analysis Coding Indexで33.4を記録し、Devstral Small 2比で最大2.8倍のスループットを達成。エージェンティックコーディング向けに構築され、サブエージェントオーケストレーション、アーキテクチャマッピング、コードレビュー、ネイティブツール使用を備えています。