遇見「North Mini Code」:Cohere 的 30B 開放權重混合專家模型,3B 活躍引數,專為智慧體程式設計打造
Cohere 釋出了其首個面向開發者的編碼模型 North Mini Code。這是一款 30B 總引數、3B 活躍引數的混合專家模型,可在單張 H100 GPU 上執行,支援 256K 上下文長度。模型專注於程式碼生成、智慧體軟體工程和終端任務,權重採用 Apache 2.0 許可釋出。
本週,Cohere AI 團隊釋出了其首個面向開發者的編碼模型,名為「North Mini Code」。該模型為開放權重,專注於軟體工程師群體。它是一款混合專家(MoE)模型,總引數量為 30B,但每個 token 僅啟用 3B 引數。
此次釋出圍繞「主權 AI」理念展開,核心思想是讓使用者能夠自主執行高效能模型。小巧而高效的編碼模型使團隊無需大型 GPU 叢集即可實現自我託管,North Mini Code 恰好瞄準了這一需求。
模型架構
North Mini Code 是一款僅解碼器 Transformer,採用稀疏 MoE 層。其注意力機制以 3:1 的比例交錯兩種型別:滑動視窗注意力使用 RoPE 位置編碼,全域性注意力則不使用任何位置嵌入。前饋塊包含 128 個專家,每個 token 啟用其中 8 個。每個專家均為使用 SwiGLU 啟用的前饋網路。路由層在 top-k 選擇前應用 sigmoid 函式,並在稀疏層之前設定一個密集層。這種設計在保持較小活躍計算量的同時,擴充套件了總容量。Cohere 以 BF16 格式釋出了權重。
後訓練分為兩個階段:首先是兩階段級聯監督微調(SFT),隨後是基於可驗證獎勵的強化學習(RLVR)。後訓練重點針對智慧體編碼能力,同時模型也支援交錯思考與原生工具使用。
基準測試
Cohere 報告稱,該模型在 Artificial Analysis Coding Index 上得分為 33.4,在同類模型中具有競爭力。評估基準包括 SWE-Bench Verified、SWE-Bench Pro、Terminal-Bench v2、Terminal-Bench Hard、SciCode 和 LiveCodeBench v6。SWE-Bench 使用 SWE-agent harness v1.1.0,Terminal-Bench v2 使用簡單 ReAct harness,Terminal-Bench Hard 使用 Terminus-2 harness。每次基準測試均以三個隨機種子執行並取平均,取樣溫度為 1.0,top_p 為 0.95。
效能
在 Cohere 的內部測試中,North Mini Code 的輸出吞吐量高達 Devstral Small 2 的 2.8 倍(相同併發和硬體條件下),token 間延遲最佳化 30%。首個 token 生成時間略遜於 Devstral Small 2。
用例
Cohere 將 North Mini Code 設計用於智慧體工作流,主要場景包括:
- 子智慧體編排:主智慧體將子任務委託給輔助智慧體,例如一個智慧體編寫單元測試,另一個修復失敗的程式碼。
- 系統架構對映:模型讀取程式碼倉庫並勾勒結構,例如在大規模重構前追蹤服務間的呼叫關係。
- 程式碼審查:模型掃描 diff 並標記問題,例如在合併前發現未受保護的空指標解引用。
此外,模型也適用於終端任務,如列出檔案、執行構建並解析錯誤輸出。
快速上手
最快的方式是使用 Hugging Face Transformers。需從原始碼安裝 Transformers 以支援此模型。推薦取樣溫度為 1.0,top_p 為 0.95。對於服務部署,可使用 vLLM,並需配合 Cohere 的 melody 庫以準確解析響應。量化版本支援 Ollama、LM Studio 和 llama.cpp。使用者也可透過 OpenCode 或 Hugging Face Space 免費試用模型。
關鍵要點
Cohere 首個編碼模型 North Mini Code 是一款 30B 總引數、3B 活躍引數的混合專家模型,可在單張 H100(FP8)上執行,支援 256K 上下文和 64K 最大輸出。模型權重採用 Apache 2.0 許可釋出(Hugging Face 卡片附加非商業說明),在 Artificial Analysis Coding Index 上得分為 33.4,吞吐量高達 Devstral Small 2 的 2.8 倍。模型專為智慧體程式設計設計,支援子智慧體編排、架構對映、程式碼審查及原生工具使用。