AI News HubLIVE
站内改写4 分钟阅读

Nous Research的NousCoder-14B:在Claude Code热潮中降生的开源编程模型

由Paradigm支持的Nous Research发布了NousCoder-14B,一个在4天内用48块英伟达B200 GPU训练而成的开源编程模型,在LiveCodeBench v6上达到67.87%的准确率,超越了一些更大的专有系统。该模型基于Atropos框架完全开源,包括强化学习环境和训练工具,但研究者警告高质量编程训练数据已接近极限。

来源VentureBeat AI作者: [email protected] (Michael Nuñez)

Nous Research,这家由加密风投Paradigm支持的开源人工智能初创公司,于周一发布了一款新的竞赛编程模型。该公司声称,该模型在仅使用48块英伟达最新B200图形处理器、训练仅四天的情况下,便达到或超越了多个更大的专有系统。

该模型名为NousCoder-14B,是已拥挤不堪的AI编程助手领域的又一新成员,但其发布时机尤为特殊:自新年以来,竞争对手Anthropic的智能编程工具Claude Code在社交媒体上引发了热议,开发者们纷纷对其能力表示惊叹。这两个同时发生的事件凸显了AI辅助软件开发的飞速发展,以及大小公司为争夺这一被视为未来软件编写基础技术的激烈竞争。

根据与模型一同发布的技术报告,NousCoder-14B在LiveCodeBench v6标准化评估中实现了67.87%的准确率。该评估测试模型解决2024年8月至2025年5月期间发布的竞赛编程问题的能力。这一成绩比其基座模型——阿里巴巴的Qwen3-14B——提高了7.08个百分点。

谷歌Gemini API首席工程师Jaana Dogan上周在X上发布了一篇爆款帖子,描述了AI编程工具的现状:“我给Claude Code描述了一个问题,它在一小时内生成了我们去年花了一整年构建的东西。”Dogan描述的是一个分布式智能体编排系统,她的团队花了一年时间开发,而Claude Code仅用三段提示就近似实现了。

这一对比发人深省:Anthropic的Claude Code以端到端软件开发的演示吸引了想象力,而Nous Research则押注于基于可验证问题训练的开源替代方案能够缩小差距,并且模型构建的透明度与原始能力同样重要。

无需许可即可复现的模型

NousCoder-14B与许多竞品公告的区别在于其彻底的开放性。Nous Research不仅发布了模型权重,还发布了完整的强化学习环境、基准测试套件和训练工具——这些均基于公司自有的Atropos框架——使得任何拥有足够计算资源的研究人员都能够复现或扩展这项工作。

模型由Nous Research的驻场研究员、前竞赛编程选手Joe Li训练。Li的技术报告揭示了一个出乎意料的个人维度:他将模型的改进轨迹与自己当年在竞赛编程平台Codeforces上的经历进行了比较。根据粗略估计,NousCoder-14B的表现从大约1600-1750分区间提升至2100-2200分区间,这相当于Li在14至16岁之间近两年的持续练习所达到的飞跃,而模型在四天内就完成了同样的进步。

但Li迅速指出一个重要警示:他在这两年里解决了大约1000个问题,而模型需要24000个。人类到目前为止仍然是效率高得多的样本学习者。

强化学习系统内幕

NousCoder-14B的训练过程展示了研究人员如何通过强化学习提升AI推理能力。该方法依赖“可验证奖励”——模型生成代码解决方案,系统针对测试用例执行这些方案,并给出简单的二元信号:正确或错误。这个反馈循环虽然概念简单,但需要大量基础设施才能规模化执行。

Nous Research使用了云平台Modal来并行运行沙盒代码执行。24000个训练问题平均每个包含数百个测试用例,系统需验证生成的代码在时间和内存限制内(15秒和4GB)产生正确输出。训练采用了动态采样策略优化(DAPO)技术,其关键创新是“动态采样”——丢弃模型全部答对或全部答错的训练样本,因为这些样本不提供有用的梯度信号。

研究人员还采用了“迭代上下文扩展”,先用32000个token的上下文窗口训练模型,然后扩展到40000个token。评估时,进一步将上下文扩展到约80000个token得到了最佳结果,准确率达到67.87%。

最值得注意的是,训练流程将推理和验证重叠——模型生成一个解决方案后,立即开始处理下一个问题,同时前一个方案正在被验证。这种流水线处理结合异步训练,最大限度地利用了昂贵GPU集群的硬件资源。

数据短缺的隐忧

Li的技术报告中隐藏着一个对AI未来发展具有深远影响的发现:NousCoder-14B的训练数据集包含了“所有可用的、可验证的竞赛编程问题中相当大的一部分”。换言之,在这个特定领域,研究人员正在接近高质量训练数据的极限。

“互联网上竞赛编程问题的总数大约在同一数量级,”Li在谈到24000个训练问题时写道,“这表明在竞赛编程领域,我们已经接近了高质量数据的极限。”这一观察呼应了整个AI行业对数据约束的日益担忧。虽然算力继续按照众所周知的经济和工程原理扩展,但训练数据“日益有限”。

“未来一些最重要的研究将需要在合成数据生成和数据高效算法及架构领域进行,”他总结道。这个问题在竞赛编程领域尤为突出,因为该领域需要已知正确解并可以自动验证的问题。与自然语言任务不同,代码要么能运行要么不能,这使得合成数据生成更加困难。

Li指出了潜在的解决途径:训练模型不仅解决问题,还要生成可解决的问题,从而实现类似于游戏AI系统中成功的自我对弈形式。“一旦合成问题生成得到解决,自我对弈将成为一个非常有趣的方向,”他写道。

6500万美元的豪赌

Nous Research在AI领域开辟了独特定位:一家致力于开源发布、与专有替代方案竞争甚至超越它们的公司。该公司在2025年4月由Coinbase联合创始人Fred Ehrsam创立的加密风投Paradigm领投的一轮融资中筹集了5000万美元。据报道,总融资额达到6500万美元。该投资反映了对去中心化AI训练方法日益增长的兴趣,Nous Research为此开发了Psyche平台。

此前发布的模型包括Hermes 4和DeepHermes-3。该公司培养了独特的审美和社区文化,但也引发了一些质疑。“我当然会相信一个动漫头像的公司。停止刷榜吧,”一位X上的批评者写道,指的是Nous Research的动漫风格品牌和行业优化基准表现的做法。

未来方向

此次发布还包括几个未来工作方向,暗示了AI编码研究的可能走向。多轮强化学习位居首位。目前,模型仅在生成解决方案后获得最终的二元奖励——通过或失败。但竞赛编程问题通常包含提供中间反馈的公开测试用例:编译错误、错误输出、超时。训练模型在多次尝试中整合这些反馈可以显著提高性能。

控制响应长度也是一个挑战。研究人员发现错误答案往往比正确答案更长,响应长度在训练期间迅速占满可用上下文窗口——各种算法修改都未能解决这一问题。

最具雄心的是,Li提出了“问题生成与自我对弈”——训练模型既解决问题又创建编程问题。这将通过使模型生成自己的训练课程来直接解决数据稀缺问题。“人类非常擅长为其他竞赛编程选手生成有趣且有用的问题,但在创造性问题生成方面,LLM的能力似乎仍存在显著差距,”Li写道。

该模型现已以Apache 2.0许可证在Hugging Face上发布。对于希望在此基础上开展工作的研究人员和开发者,Nous Research已发布完整的Atropos训练工具包。

Li用了两年青少年时期的努力才从Codeforces的1600分新手爬到2100分高手,而AI在96小时内复制了这一成就。他需要1000个问题,而模型需要24000个。但很快,这些系统或许能学会编写自己的问题,自学成才,完全超越人类的基准。

问题不再是机器能否学会编码,而是它们是否很快就会成为比我们更好的老师。