AI News HubLIVE
站内改写1 分鐘閱讀

Cohere 釋出 North Mini Code:專為開發者設計的首個模型

Cohere 釋出了 North Mini Code,一個 300 億引數的混合專家模型,擁有 30 億活躍引數,專為代理式軟體工程任務設計。該模型在 Apache 2.0 許可證下開源,並在多項編碼基準測試中表現優異,超越了同類開源模型。

Cohere 今天釋出了 North Mini Code,這是其新模型系列中的第一個,專門為代理式軟體工程任務設計。該模型是一個 300 億引數的混合專家模型,具有 30 億活躍引數,在 Apache 2.0 許可證下在 Hugging Face 上提供。

North Mini Code 在代理式編碼任務和複雜程式碼生成基準測試中表現出色。在 Artificial Analysis 的編碼指數上,它獲得了 33.4 分,超過了 Qwen3.5 (35B-A3B)、Gemma 4 (26B-A4B)、Devstral Small 2 (24B Dense) 等模型,甚至超過了更大規模的模型如 Nemotron 3 Super (120B-A12B) 等。它在其尺寸類別中排名最強大的開源編碼模型之一。

該模型的架構是基於解碼器的 Transformer 稀疏混合專家模型。它採用了高效的注意力實現,交錯使用滑動視窗注意力和全域性注意力,比例為 3:1。前饋塊是 MoE 塊,有 128 個專家,每個 token 啟用 8 個。路由器在 top-k 選擇之前對 logits 應用 sigmoid 啟用函式。

在訓練方面,Cohere 採用了後訓練流程,包括兩階段監督微調(SFT)和階段性的帶有可驗證獎勵的強化學習(RLVR),專注於代理式編碼。第一階段 SFT 資料注重編碼能力,編碼資料集佔可訓練 token 的 70%,其中 43% 為代理式工具使用資料,27% 為單輪競賽或科學程式設計資料。第二階段 SFT 使用 45 億 token 的資料混合,僅來自代理式和推理驅動的樣本,編碼資料佔可訓練 token 的 61%。

為了在不同編碼代理框架中實現魯棒性,North Mini Code 在第二階段 SFT 中引入了少量額外的基準框架資料。這種跨框架泛化方法使得模型能夠在不同環境中保持高效能。

強化學習階段採用非同步 RL 迴圈,將取樣與學習解耦,使用視窗化的先進先出佇列和 CISPO 目標函式。透過單一多環境線上 RL 訓練執行,覆蓋終端任務和軟體工程任務,模型在 SWE-Bench Verified 和 Terminal-Bench v2 上均取得了顯著提升。

總之,North Mini Code 代表了 Cohere 在代理式編碼領域的一次重要進步,為開發者提供了一個強大且開源的工具。