Nous Research的NousCoder-14B:在Claude Code熱潮中降生的開源編程模型
由Paradigm支持的Nous Research發佈了NousCoder-14B,一個在4天內用48塊英偉達B200 GPU訓練而成的開源編程模型,在LiveCodeBench v6上達到67.87%的準確率,超越了一些更大的專有系統。該模型基於Atropos框架完全開源,包括強化學習環境和訓練工具,但研究者警告高質量編程訓練數據已接近極限。
Nous Research,這家由加密風投Paradigm支持的開源人工智能初創公司,於週一發佈了一款新的競賽編程模型。該公司聲稱,該模型在僅使用48塊英偉達最新B200圖形處理器、訓練僅四天的情況下,便達到或超越了多個更大的專有系統。
該模型名為NousCoder-14B,是已擁擠不堪的AI編程助手領域的又一新成員,但其發佈時機尤為特殊:自新年以來,競爭對手Anthropic的智能編程工具Claude Code在社交媒體上引發了熱議,開發者們紛紛對其能力表示驚歎。這兩個同時發生的事件凸顯了AI輔助軟件開發的飛速發展,以及大小公司為爭奪這一被視為未來軟件編寫基礎技術的激烈競爭。
根據與模型一同發佈的技術報告,NousCoder-14B在LiveCodeBench v6標準化評估中實現了67.87%的準確率。該評估測試模型解決2024年8月至2025年5月期間發佈的競賽編程問題的能力。這一成績比其基座模型——阿里巴巴的Qwen3-14B——提高了7.08個百分點。
谷歌Gemini API首席工程師Jaana Dogan上週在X上發佈了一篇爆款帖子,描述了AI編程工具的現狀:“我給Claude Code描述了一個問題,它在一小時內生成了我們去年花了一整年構建的東西。”Dogan描述的是一個分佈式智能體編排系統,她的團隊花了一年時間開發,而Claude Code僅用三段提示就近似實現了。
這一對比發人深省:Anthropic的Claude Code以端到端軟件開發的演示吸引了想象力,而Nous Research則押注於基於可驗證問題訓練的開源替代方案能夠縮小差距,並且模型構建的透明度與原始能力同樣重要。
無需許可即可復現的模型
NousCoder-14B與許多競品公告的區別在於其徹底的開放性。Nous Research不僅發佈了模型權重,還發布了完整的強化學習環境、基準測試套件和訓練工具——這些均基於公司自有的Atropos框架——使得任何擁有足夠計算資源的研究人員都能夠復現或擴展這項工作。
模型由Nous Research的駐場研究員、前競賽編程選手Joe Li訓練。Li的技術報告揭示了一個出乎意料的個人維度:他將模型的改進軌跡與自己當年在競賽編程平台Codeforces上的經歷進行了比較。根據粗略估計,NousCoder-14B的表現從大約1600-1750分區間提升至2100-2200分區間,這相當於Li在14至16歲之間近兩年的持續練習所達到的飛躍,而模型在四天內就完成了同樣的進步。
但Li迅速指出一個重要警示:他在這兩年裏解決了大約1000個問題,而模型需要24000個。人類到目前為止仍然是效率高得多的樣本學習者。
強化學習系統內幕
NousCoder-14B的訓練過程展示了研究人員如何通過強化學習提升AI推理能力。該方法依賴“可驗證獎勵”——模型生成代碼解決方案,系統針對測試用例執行這些方案,並給出簡單的二元信號:正確或錯誤。這個反饋循環雖然概念簡單,但需要大量基礎設施才能規模化執行。
Nous Research使用了雲平台Modal來並行運行沙盒代碼執行。24000個訓練問題平均每個包含數百個測試用例,系統需驗證生成的代碼在時間和內存限制內(15秒和4GB)產生正確輸出。訓練採用了動態採樣策略優化(DAPO)技術,其關鍵創新是“動態採樣”——丟棄模型全部答對或全部答錯的訓練樣本,因為這些樣本不提供有用的梯度信號。
研究人員還採用了“迭代上下文擴展”,先用32000個token的上下文窗口訓練模型,然後擴展到40000個token。評估時,進一步將上下文擴展到約80000個token得到了最佳結果,準確率達到67.87%。
最值得注意的是,訓練流程將推理和驗證重疊——模型生成一個解決方案後,立即開始處理下一個問題,同時前一個方案正在被驗證。這種流水線處理結合異步訓練,最大限度地利用了昂貴GPU集羣的硬件資源。
數據短缺的隱憂
Li的技術報告中隱藏着一個對AI未來發展具有深遠影響的發現:NousCoder-14B的訓練數據集包含了“所有可用的、可驗證的競賽編程問題中相當大的一部分”。換言之,在這個特定領域,研究人員正在接近高質量訓練數據的極限。
“互聯網上競賽編程問題的總數大約在同一數量級,”Li在談到24000個訓練問題時寫道,“這表明在競賽編程領域,我們已經接近了高質量數據的極限。”這一觀察呼應了整個AI行業對數據約束的日益擔憂。雖然算力繼續按照眾所周知的經濟和工程原理擴展,但訓練數據“日益有限”。
“未來一些最重要的研究將需要在合成數據生成和數據高效算法及架構領域進行,”他總結道。這個問題在競賽編程領域尤為突出,因為該領域需要已知正確解並可以自動驗證的問題。與自然語言任務不同,代碼要麼能運行要麼不能,這使得合成數據生成更加困難。
Li指出了潛在的解決途徑:訓練模型不僅解決問題,還要生成可解決的問題,從而實現類似於遊戲AI系統中成功的自我對弈形式。“一旦合成問題生成得到解決,自我對弈將成為一個非常有趣的方向,”他寫道。
6500萬美元的豪賭
Nous Research在AI領域開闢了獨特定位:一家致力於開源發佈、與專有替代方案競爭甚至超越它們的公司。該公司在2025年4月由Coinbase聯合創始人Fred Ehrsam創立的加密風投Paradigm領投的一輪融資中籌集了5000萬美元。據報道,總融資額達到6500萬美元。該投資反映了對去中心化AI訓練方法日益增長的興趣,Nous Research為此開發了Psyche平台。
此前發佈的模型包括Hermes 4和DeepHermes-3。該公司培養了獨特的審美和社區文化,但也引發了一些質疑。“我當然會相信一個動漫頭像的公司。停止刷榜吧,”一位X上的批評者寫道,指的是Nous Research的動漫風格品牌和行業優化基準表現的做法。
未來方向
此次發佈還包括幾個未來工作方向,暗示了AI編碼研究的可能走向。多輪強化學習位居首位。目前,模型僅在生成解決方案後獲得最終的二元獎勵——通過或失敗。但競賽編程問題通常包含提供中間反饋的公開測試用例:編譯錯誤、錯誤輸出、超時。訓練模型在多次嘗試中整合這些反饋可以顯著提高性能。
控制響應長度也是一個挑戰。研究人員發現錯誤答案往往比正確答案更長,響應長度在訓練期間迅速佔滿可用上下文窗口——各種算法修改都未能解決這一問題。
最具雄心的是,Li提出了“問題生成與自我對弈”——訓練模型既解決問題又創建編程問題。這將通過使模型生成自己的訓練課程來直接解決數據稀缺問題。“人類非常擅長為其他競賽編程選手生成有趣且有用的問題,但在創造性問題生成方面,LLM的能力似乎仍存在顯著差距,”Li寫道。
該模型現已以Apache 2.0許可證在Hugging Face上發佈。對於希望在此基礎上開展工作的研究人員和開發者,Nous Research已發佈完整的Atropos訓練工具包。
Li用了兩年青少年時期的努力才從Codeforces的1600分新手爬到2100分高手,而AI在96小時內複製了這一成就。他需要1000個問題,而模型需要24000個。但很快,這些系統或許能學會編寫自己的問題,自學成才,完全超越人類的基準。
問題不再是機器能否學會編碼,而是它們是否很快就會成為比我們更好的老師。