Cohere 发布 North Mini Code:专为开发者设计的首个模型
Cohere 发布了 North Mini Code,一个 300 亿参数的混合专家模型,拥有 30 亿活跃参数,专为代理式软件工程任务设计。该模型在 Apache 2.0 许可证下开源,并在多项编码基准测试中表现优异,超越了同类开源模型。
Cohere 今天发布了 North Mini Code,这是其新模型系列中的第一个,专门为代理式软件工程任务设计。该模型是一个 300 亿参数的混合专家模型,具有 30 亿活跃参数,在 Apache 2.0 许可证下在 Hugging Face 上提供。
North Mini Code 在代理式编码任务和复杂代码生成基准测试中表现出色。在 Artificial Analysis 的编码指数上,它获得了 33.4 分,超过了 Qwen3.5 (35B-A3B)、Gemma 4 (26B-A4B)、Devstral Small 2 (24B Dense) 等模型,甚至超过了更大规模的模型如 Nemotron 3 Super (120B-A12B) 等。它在其尺寸类别中排名最强大的开源编码模型之一。
该模型的架构是基于解码器的 Transformer 稀疏混合专家模型。它采用了高效的注意力实现,交错使用滑动窗口注意力和全局注意力,比例为 3:1。前馈块是 MoE 块,有 128 个专家,每个 token 激活 8 个。路由器在 top-k 选择之前对 logits 应用 sigmoid 激活函数。
在训练方面,Cohere 采用了后训练流程,包括两阶段监督微调(SFT)和阶段性的带有可验证奖励的强化学习(RLVR),专注于代理式编码。第一阶段 SFT 数据注重编码能力,编码数据集占可训练 token 的 70%,其中 43% 为代理式工具使用数据,27% 为单轮竞赛或科学编程数据。第二阶段 SFT 使用 45 亿 token 的数据混合,仅来自代理式和推理驱动的样本,编码数据占可训练 token 的 61%。
为了在不同编码代理框架中实现鲁棒性,North Mini Code 在第二阶段 SFT 中引入了少量额外的基准框架数据。这种跨框架泛化方法使得模型能够在不同环境中保持高性能。
强化学习阶段采用异步 RL 循环,将采样与学习解耦,使用窗口化的先进先出队列和 CISPO 目标函数。通过单一多环境在线 RL 训练运行,覆盖终端任务和软件工程任务,模型在 SWE-Bench Verified 和 Terminal-Bench v2 上均取得了显著提升。
总之,North Mini Code 代表了 Cohere 在代理式编码领域的一次重要进步,为开发者提供了一个强大且开源的工具。