遇见「North Mini Code」:Cohere 的 30B 开放权重混合专家模型,3B 活跃参数,专为智能体编程打造
Cohere 发布了其首个面向开发者的编码模型 North Mini Code。这是一款 30B 总参数、3B 活跃参数的混合专家模型,可在单张 H100 GPU 上运行,支持 256K 上下文长度。模型专注于代码生成、智能体软件工程和终端任务,权重采用 Apache 2.0 许可发布。
本周,Cohere AI 团队发布了其首个面向开发者的编码模型,名为「North Mini Code」。该模型为开放权重,专注于软件工程师群体。它是一款混合专家(MoE)模型,总参数量为 30B,但每个 token 仅激活 3B 参数。
此次发布围绕「主权 AI」理念展开,核心思想是让用户能够自主运行高性能模型。小巧而高效的编码模型使团队无需大型 GPU 集群即可实现自我托管,North Mini Code 恰好瞄准了这一需求。
模型架构
North Mini Code 是一款仅解码器 Transformer,采用稀疏 MoE 层。其注意力机制以 3:1 的比例交错两种类型:滑动窗口注意力使用 RoPE 位置编码,全局注意力则不使用任何位置嵌入。前馈块包含 128 个专家,每个 token 激活其中 8 个。每个专家均为使用 SwiGLU 激活的前馈网络。路由层在 top-k 选择前应用 sigmoid 函数,并在稀疏层之前设置一个密集层。这种设计在保持较小活跃计算量的同时,扩展了总容量。Cohere 以 BF16 格式发布了权重。
后训练分为两个阶段:首先是两阶段级联监督微调(SFT),随后是基于可验证奖励的强化学习(RLVR)。后训练重点针对智能体编码能力,同时模型也支持交错思考与原生工具使用。
基准测试
Cohere 报告称,该模型在 Artificial Analysis Coding Index 上得分为 33.4,在同类模型中具有竞争力。评估基准包括 SWE-Bench Verified、SWE-Bench Pro、Terminal-Bench v2、Terminal-Bench Hard、SciCode 和 LiveCodeBench v6。SWE-Bench 使用 SWE-agent harness v1.1.0,Terminal-Bench v2 使用简单 ReAct harness,Terminal-Bench Hard 使用 Terminus-2 harness。每次基准测试均以三个随机种子运行并取平均,采样温度为 1.0,top_p 为 0.95。
性能
在 Cohere 的内部测试中,North Mini Code 的输出吞吐量高达 Devstral Small 2 的 2.8 倍(相同并发和硬件条件下),token 间延迟优化 30%。首个 token 生成时间略逊于 Devstral Small 2。
用例
Cohere 将 North Mini Code 设计用于智能体工作流,主要场景包括:
- 子智能体编排:主智能体将子任务委托给辅助智能体,例如一个智能体编写单元测试,另一个修复失败的代码。
- 系统架构映射:模型读取代码仓库并勾勒结构,例如在大规模重构前追踪服务间的调用关系。
- 代码审查:模型扫描 diff 并标记问题,例如在合并前发现未受保护的空指针解引用。
此外,模型也适用于终端任务,如列出文件、运行构建并解析错误输出。
快速上手
最快的方式是使用 Hugging Face Transformers。需从源码安装 Transformers 以支持此模型。推荐采样温度为 1.0,top_p 为 0.95。对于服务部署,可使用 vLLM,并需配合 Cohere 的 melody 库以准确解析响应。量化版本支持 Ollama、LM Studio 和 llama.cpp。用户也可通过 OpenCode 或 Hugging Face Space 免费试用模型。
关键要点
Cohere 首个编码模型 North Mini Code 是一款 30B 总参数、3B 活跃参数的混合专家模型,可在单张 H100(FP8)上运行,支持 256K 上下文和 64K 最大输出。模型权重采用 Apache 2.0 许可发布(Hugging Face 卡片附加非商业说明),在 Artificial Analysis Coding Index 上得分为 33.4,吞吐量高达 Devstral Small 2 的 2.8 倍。模型专为智能体编程设计,支持子智能体编排、架构映射、代码审查及原生工具使用。