AI News HubLIVE
站内改写1 分鐘閱讀

Cohere 發佈 North Mini Code:專為開發者設計的首個模型

Cohere 發佈了 North Mini Code,一個 300 億參數的混合專家模型,擁有 30 億活躍參數,專為代理式軟件工程任務設計。該模型在 Apache 2.0 許可證下開源,並在多項編碼基準測試中表現優異,超越了同類開源模型。

Cohere 今天發佈了 North Mini Code,這是其新模型系列中的第一個,專門為代理式軟件工程任務設計。該模型是一個 300 億參數的混合專家模型,具有 30 億活躍參數,在 Apache 2.0 許可證下在 Hugging Face 上提供。

North Mini Code 在代理式編碼任務和複雜代碼生成基準測試中表現出色。在 Artificial Analysis 的編碼指數上,它獲得了 33.4 分,超過了 Qwen3.5 (35B-A3B)、Gemma 4 (26B-A4B)、Devstral Small 2 (24B Dense) 等模型,甚至超過了更大規模的模型如 Nemotron 3 Super (120B-A12B) 等。它在其尺寸類別中排名最強大的開源編碼模型之一。

該模型的架構是基於解碼器的 Transformer 稀疏混合專家模型。它採用了高效的注意力實現,交錯使用滑動窗口注意力和全局注意力,比例為 3:1。前饋塊是 MoE 塊,有 128 個專家,每個 token 激活 8 個。路由器在 top-k 選擇之前對 logits 應用 sigmoid 激活函數。

在訓練方面,Cohere 採用了後訓練流程,包括兩階段監督微調(SFT)和階段性的帶有可驗證獎勵的強化學習(RLVR),專注於代理式編碼。第一階段 SFT 數據注重編碼能力,編碼數據集佔可訓練 token 的 70%,其中 43% 為代理式工具使用數據,27% 為單輪競賽或科學編程數據。第二階段 SFT 使用 45 億 token 的數據混合,僅來自代理式和推理驅動的樣本,編碼數據佔可訓練 token 的 61%。

為了在不同編碼代理框架中實現魯棒性,North Mini Code 在第二階段 SFT 中引入了少量額外的基準框架數據。這種跨框架泛化方法使得模型能夠在不同環境中保持高性能。

強化學習階段採用異步 RL 循環,將採樣與學習解耦,使用窗口化的先進先出隊列和 CISPO 目標函數。通過單一多環境在線 RL 訓練運行,覆蓋終端任務和軟件工程任務,模型在 SWE-Bench Verified 和 Terminal-Bench v2 上均取得了顯著提升。

總之,North Mini Code 代表了 Cohere 在代理式編碼領域的一次重要進步,為開發者提供了一個強大且開源的工具。