遇見「North Mini Code」:Cohere 的 30B 開放權重混合專家模型,3B 活躍參數,專為智能體編程打造
Cohere 發佈了其首個面向開發者的編碼模型 North Mini Code。這是一款 30B 總參數、3B 活躍參數的混合專家模型,可在單張 H100 GPU 上運行,支持 256K 上下文長度。模型專注於代碼生成、智能體軟件工程和終端任務,權重採用 Apache 2.0 許可發佈。
本週,Cohere AI 團隊發佈了其首個面向開發者的編碼模型,名為「North Mini Code」。該模型為開放權重,專注於軟件工程師羣體。它是一款混合專家(MoE)模型,總參數量為 30B,但每個 token 僅激活 3B 參數。
此次發佈圍繞「主權 AI」理念展開,核心思想是讓用户能夠自主運行高性能模型。小巧而高效的編碼模型使團隊無需大型 GPU 集羣即可實現自我託管,North Mini Code 恰好瞄準了這一需求。
模型架構
North Mini Code 是一款僅解碼器 Transformer,採用稀疏 MoE 層。其注意力機制以 3:1 的比例交錯兩種類型:滑動窗口注意力使用 RoPE 位置編碼,全局注意力則不使用任何位置嵌入。前饋塊包含 128 個專家,每個 token 激活其中 8 個。每個專家均為使用 SwiGLU 激活的前饋網絡。路由層在 top-k 選擇前應用 sigmoid 函數,並在稀疏層之前設置一個密集層。這種設計在保持較小活躍計算量的同時,擴展了總容量。Cohere 以 BF16 格式發佈了權重。
後訓練分為兩個階段:首先是兩階段級聯監督微調(SFT),隨後是基於可驗證獎勵的強化學習(RLVR)。後訓練重點針對智能體編碼能力,同時模型也支持交錯思考與原生工具使用。
基準測試
Cohere 報告稱,該模型在 Artificial Analysis Coding Index 上得分為 33.4,在同類模型中具有競爭力。評估基準包括 SWE-Bench Verified、SWE-Bench Pro、Terminal-Bench v2、Terminal-Bench Hard、SciCode 和 LiveCodeBench v6。SWE-Bench 使用 SWE-agent harness v1.1.0,Terminal-Bench v2 使用簡單 ReAct harness,Terminal-Bench Hard 使用 Terminus-2 harness。每次基準測試均以三個隨機種子運行並取平均,採樣温度為 1.0,top_p 為 0.95。
性能
在 Cohere 的內部測試中,North Mini Code 的輸出吞吐量高達 Devstral Small 2 的 2.8 倍(相同併發和硬件條件下),token 間延遲優化 30%。首個 token 生成時間略遜於 Devstral Small 2。
用例
Cohere 將 North Mini Code 設計用於智能體工作流,主要場景包括:
- 子智能體編排:主智能體將子任務委託給輔助智能體,例如一個智能體編寫單元測試,另一個修復失敗的代碼。
- 系統架構映射:模型讀取代碼倉庫並勾勒結構,例如在大規模重構前追蹤服務間的調用關係。
- 代碼審查:模型掃描 diff 並標記問題,例如在合併前發現未受保護的空指針解引用。
此外,模型也適用於終端任務,如列出文件、運行構建並解析錯誤輸出。
快速上手
最快的方式是使用 Hugging Face Transformers。需從源碼安裝 Transformers 以支持此模型。推薦採樣温度為 1.0,top_p 為 0.95。對於服務部署,可使用 vLLM,並需配合 Cohere 的 melody 庫以準確解析響應。量化版本支持 Ollama、LM Studio 和 llama.cpp。用户也可通過 OpenCode 或 Hugging Face Space 免費試用模型。
關鍵要點
Cohere 首個編碼模型 North Mini Code 是一款 30B 總參數、3B 活躍參數的混合專家模型,可在單張 H100(FP8)上運行,支持 256K 上下文和 64K 最大輸出。模型權重採用 Apache 2.0 許可發佈(Hugging Face 卡片附加非商業説明),在 Artificial Analysis Coding Index 上得分為 33.4,吞吐量高達 Devstral Small 2 的 2.8 倍。模型專為智能體編程設計,支持子智能體編排、架構映射、代碼審查及原生工具使用。