Nous Research的NousCoder-14B:在Claude Code熱潮中降生的開源程式設計模型
由Paradigm支援的Nous Research釋出了NousCoder-14B,一個在4天內用48塊輝達B200 GPU訓練而成的開源程式設計模型,在LiveCodeBench v6上達到67.87%的準確率,超越了一些更大的專有系統。該模型基於Atropos框架完全開源,包括強化學習環境和訓練工具,但研究者警告高質量程式設計訓練資料已接近極限。
Nous Research,這家由加密風投Paradigm支援的開源人工智慧初創公司,於週一釋出了一款新的競賽程式設計模型。該公司聲稱,該模型在僅使用48塊輝達最新B200圖形處理器、訓練僅四天的情況下,便達到或超越了多個更大的專有系統。
該模型名為NousCoder-14B,是已擁擠不堪的AI程式設計助手領域的又一新成員,但其釋出時機尤為特殊:自新年以來,競爭對手Anthropic的智慧程式設計工具Claude Code在社交媒體上引發了熱議,開發者們紛紛對其能力表示驚歎。這兩個同時發生的事件凸顯了AI輔助軟體開發的飛速發展,以及大小公司為爭奪這一被視為未來軟體編寫基礎技術的激烈競爭。
根據與模型一同釋出的技術報告,NousCoder-14B在LiveCodeBench v6標準化評估中實現了67.87%的準確率。該評估測試模型解決2024年8月至2025年5月期間釋出的競賽程式設計問題的能力。這一成績比其基座模型——阿里巴巴的Qwen3-14B——提高了7.08個百分點。
谷歌Gemini API首席工程師Jaana Dogan上週在X上釋出了一篇爆款帖子,描述了AI程式設計工具的現狀:“我給Claude Code描述了一個問題,它在一小時內生成了我們去年花了一整年構建的東西。”Dogan描述的是一個分散式智慧體編排系統,她的團隊花了一年時間開發,而Claude Code僅用三段提示就近似實現了。
這一對比發人深省:Anthropic的Claude Code以端到端軟體開發的演示吸引了想象力,而Nous Research則押注於基於可驗證問題訓練的開源替代方案能夠縮小差距,並且模型構建的透明度與原始能力同樣重要。
無需許可即可復現的模型
NousCoder-14B與許多競品公告的區別在於其徹底的開放性。Nous Research不僅釋出了模型權重,還發布了完整的強化學習環境、基準測試套件和訓練工具——這些均基於公司自有的Atropos框架——使得任何擁有足夠計算資源的研究人員都能夠復現或擴充套件這項工作。
模型由Nous Research的駐場研究員、前競賽程式設計選手Joe Li訓練。Li的技術報告揭示了一個出乎意料的個人維度:他將模型的改進軌跡與自己當年在競賽程式設計平臺Codeforces上的經歷進行了比較。根據粗略估計,NousCoder-14B的表現從大約1600-1750分割槽間提升至2100-2200分割槽間,這相當於Li在14至16歲之間近兩年的持續練習所達到的飛躍,而模型在四天內就完成了同樣的進步。
但Li迅速指出一個重要警示:他在這兩年裡解決了大約1000個問題,而模型需要24000個。人類到目前為止仍然是效率高得多的樣本學習者。
強化學習系統內幕
NousCoder-14B的訓練過程展示了研究人員如何透過強化學習提升AI推理能力。該方法依賴“可驗證獎勵”——模型生成程式碼解決方案,系統針對測試用例執行這些方案,並給出簡單的二元訊號:正確或錯誤。這個反饋迴圈雖然概念簡單,但需要大量基礎設施才能規模化執行。
Nous Research使用了雲平臺Modal來並行執行沙盒程式碼執行。24000個訓練問題平均每個包含數百個測試用例,系統需驗證生成的程式碼在時間和記憶體限制內(15秒和4GB)產生正確輸出。訓練採用了動態取樣策略最佳化(DAPO)技術,其關鍵創新是“動態取樣”——丟棄模型全部答對或全部答錯的訓練樣本,因為這些樣本不提供有用的梯度訊號。
研究人員還採用了“迭代上下文擴充套件”,先用32000個token的上下文視窗訓練模型,然後擴充套件到40000個token。評估時,進一步將上下文擴充套件到約80000個token得到了最佳結果,準確率達到67.87%。
最值得注意的是,訓練流程將推理和驗證重疊——模型生成一個解決方案後,立即開始處理下一個問題,同時前一個方案正在被驗證。這種流水線處理結合非同步訓練,最大限度地利用了昂貴GPU叢集的硬體資源。
資料短缺的隱憂
Li的技術報告中隱藏著一個對AI未來發展具有深遠影響的發現:NousCoder-14B的訓練資料集包含了“所有可用的、可驗證的競賽程式設計問題中相當大的一部分”。換言之,在這個特定領域,研究人員正在接近高質量訓練資料的極限。
“網際網路上競賽程式設計問題的總數大約在同一數量級,”Li在談到24000個訓練問題時寫道,“這表明在競賽程式設計領域,我們已經接近了高質量資料的極限。”這一觀察呼應了整個AI行業對資料約束的日益擔憂。雖然算力繼續按照眾所周知的經濟和工程原理擴充套件,但訓練資料“日益有限”。
“未來一些最重要的研究將需要在合成資料生成和資料高效演算法及架構領域進行,”他總結道。這個問題在競賽程式設計領域尤為突出,因為該領域需要已知正確解並可以自動驗證的問題。與自然語言任務不同,程式碼要麼能執行要麼不能,這使得合成資料生成更加困難。
Li指出了潛在的解決途徑:訓練模型不僅解決問題,還要生成可解決的問題,從而實現類似於遊戲AI系統中成功的自我對弈形式。“一旦合成問題生成得到解決,自我對弈將成為一個非常有趣的方向,”他寫道。
6500萬美元的豪賭
Nous Research在AI領域開闢了獨特定位:一家致力於開源釋出、與專有替代方案競爭甚至超越它們的公司。該公司在2025年4月由Coinbase聯合創始人Fred Ehrsam創立的加密風投Paradigm領投的一輪融資中籌集了5000萬美元。據報道,總融資額達到6500萬美元。該投資反映了對去中心化AI訓練方法日益增長的興趣,Nous Research為此開發了Psyche平臺。
此前釋出的模型包括Hermes 4和DeepHermes-3。該公司培養了獨特的審美和社群文化,但也引發了一些質疑。“我當然會相信一個動漫頭像的公司。停止刷榜吧,”一位X上的批評者寫道,指的是Nous Research的動漫風格品牌和行業最佳化基準表現的做法。
未來方向
此次釋出還包括幾個未來工作方向,暗示了AI編碼研究的可能走向。多輪強化學習位居首位。目前,模型僅在生成解決方案後獲得最終的二元獎勵——透過或失敗。但競賽程式設計問題通常包含提供中間反饋的公開測試用例:編譯錯誤、錯誤輸出、超時。訓練模型在多次嘗試中整合這些反饋可以顯著提高效能。
控制響應長度也是一個挑戰。研究人員發現錯誤答案往往比正確答案更長,響應長度在訓練期間迅速佔滿可用上下文視窗——各種演算法修改都未能解決這一問題。
最具雄心的是,Li提出了“問題生成與自我對弈”——訓練模型既解決問題又建立程式設計問題。這將透過使模型生成自己的訓練課程來直接解決資料稀缺問題。“人類非常擅長為其他競賽程式設計選手生成有趣且有用的問題,但在創造性問題生成方面,LLM的能力似乎仍存在顯著差距,”Li寫道。
該模型現已以Apache 2.0許可證在Hugging Face上釋出。對於希望在此基礎上開展工作的研究人員和開發者,Nous Research已釋出完整的Atropos訓練工具包。
Li用了兩年青少年時期的努力才從Codeforces的1600分新手爬到2100分高手,而AI在96小時內複製了這一成就。他需要1000個問題,而模型需要24000個。但很快,這些系統或許能學會編寫自己的問題,自學成才,完全超越人類的基準。
問題不再是機器能否學會編碼,而是它們是否很快就會成為比我們更好的老師。