AI News HubLIVE
サイト内リライト6 分で読了

Nous ResearchのNousCoder-14B:Claude Codeの熱狂の中で登場したオープンソースコーディングモデル

Paradigmの支援を受けるNous Researchは、オープンソースの競技プログラミングモデルNousCoder-14Bを発表。48基のNvidia B200 GPUを使用しわずか4日間でトレーニングされ、LiveCodeBench v6で67.87%の精度を達成し、より大規模なプロプライエタリシステムに匹敵または凌駕すると主張する。

ソースVentureBeat AI著者: [email protected] (Michael Nuñez)

暗号資産ベンチャーParadigmが出資するオープンソースAIスタートアップNous Researchは月曜日、競技プログラミング向けの新しいモデルを発表した。同社によると、このモデルはNvidiaの最新B200グラフィックスプロセッサ48基を使用し、わずか4日間のトレーニングで、より大規模なプロプライエタリシステムのいくつかに匹敵するか、それを上回る性能を達成したという。

NousCoder-14Bと名付けられたこのモデルは、すでに混雑しているAIコーディングアシスタント分野への新たな参入だが、特に注目すべきタイミングで登場した。ライバル企業Anthropicのエージェント型プログラミングツールClaude Codeが新年以降、ソーシャルメディアで話題を独占し、開発者たちがその能力について熱狂的な体験談を投稿しているからだ。この同時進行の展開は、AI支援ソフトウェア開発が急速に進化していること、そして多くの人々がソフトウェアが書かれる方法の基盤技術になると信じる分野を巡り、大小の企業が激しく競争していることを浮き彫りにしている。

NousCoder-14Bは、2024年8月から2025年5月に公開された競技プログラミング問題をテストする標準評価LiveCodeBench v6で67.87%の精度を達成した。Nous Researchが発表と同時に公開したテクニカルレポートによると、この数値はベースモデルであるAlibabaのQwen3-14Bから7.08ポイントの改善を示している。

GoogleのGemini API責任者である主任エンジニアJaana Dogan氏は先週Xに投稿したバイラルポストで、AIコーディングツールを巡る現在の雰囲気を捉えた。「Claude Codeに問題の説明を与えたら、昨年私たちが1年かけて構築したものを1時間で生成した」と述べ、彼女のチームが1年かけて開発した分散エージェントオーケストレーションシステムを、Claude Codeが3段落のプロンプトから近似したと説明した。

この対比は示唆に富む。AnthropicのClaude Codeがエンドツーエンドのソフトウェア開発のデモで想像力を掻き立てる一方、Nous Researchは検証可能な問題でトレーニングされたオープンソースの代替手段がその差を縮められると賭けており、モデルの構築方法における透明性が生の能力と同じくらい重要だと考えている。

誰でも再現可能なモデル

NousCoder-14Bリリースを多くの競合発表と区別するのは、その徹底したオープン性だ。Nous Researchはモデルウェイトだけでなく、完全な強化学習環境、ベンチマークスイート、トレーニングハーネスを公開した。これらは同社のAtroposフレームワーク上に構築されており、十分な計算リソースを持つ研究者なら誰でもこの作業を再現または拡張できる。

モデルは元競技プログラマーでありNous Researchのリサーチ・イン・レジデンスであるJoe Li氏によってトレーニングされた。Li氏のテクニカルレポートには予想外に個人的な側面が明かされている。彼はモデルの改善軌跡を、自身のCodeforces(参加者がコンテスト成績に基づいてレーティングを獲得する競技プログラミングプラットフォーム)での経験と比較した。

大まかな推定によると、NousCoder-14Bのパフォーマンスは約1600-1750のレーティング範囲から2100-2200へと向上し、これはLi氏が14歳から16歳の間に約2年間の継続的な練習で達成した飛躍に相当する。モデルはその同等の進歩を4日で達成した。

しかしLi氏は重要な注意点を指摘した。彼はその2年間で約1000の問題を解いたのに対し、モデルは24000を必要とした。人間は少なくとも今のところ、はるかにサンプル効率の良い学習者である。

強化学習システムの内部

NousCoder-14Bのトレーニングプロセスは、研究者が強化学習を通じてAIの推論能力を向上させるためにますます洗練された技術をどのように使用しているかを示している。

このアプローチは「検証可能な報酬」に依存している。モデルがコードソリューションを生成し、それらのソリューションがテストケースに対して実行され、モデルは単純なバイナリ信号(正解か不正解か)を受け取る。このフィードバックループは概念的に単純だが、規模を拡大して実行するには相当なインフラが必要である。

Nous ResearchはクラウドコンピューティングプラットフォームModalを使用して、サンドボックス化されたコード実行を並行して実行した。24000のトレーニング問題には平均して数百のテストケースが含まれており、システムは生成されたコードが時間とメモリの制約(それぞれ15秒と4ギガバイト)内で正しい出力を生成することを検証しなければならない。

トレーニングではDAPO(Dynamic Sampling Policy Optimization)と呼ばれる技術が採用され、研究者らは実験で代替手法よりもわずかに優れていることを発見した。重要な革新は「ダイナミックサンプリング」である。モデルがすべての試行を解決するか、すべての試行に失敗するトレーニング例は、学習に有用な勾配信号を提供しないため破棄される。

研究者はまた「反復的コンテキスト拡張」を採用し、まず32,000トークンのコンテキストウィンドウでモデルをトレーニングし、その後40,000トークンに拡張した。評価時には、コンテキストをさらに約80,000トークンに拡張することで最高の結果が得られ、精度は67.87%に達した。

最も重要なのは、トレーニングパイプラインが推論と検証を重複させていることだ。モデルがソリューションを生成するとすぐに、前のソリューションがチェックされている間に次の問題の作業を開始する。このパイプライン処理と、複数のモデルインスタンスが並行して動作する非同期トレーニングを組み合わせることで、高価なGPUクラスターのハードウェア利用が最大化される。

迫り来るデータ不足

Li氏のテクニカルレポートに埋もれているのは、AI開発の将来に重要な意味を持つ発見である。NousCoder-14Bのトレーニングデータセットは、「標準化されたデータセット形式ですぐに入手可能な検証可能な競技プログラミング問題のかなりの部分」を包含している。言い換えれば、この特定のドメインにおいて、研究者は高品質のトレーニングデータの限界に近づいている。

「インターネット上の競技プログラミング問題の総数はおおよそ同じ桁です」とLi氏はトレーニングに使用された24,000問題に言及して書いている。「これは、競技プログラミングドメイン内で、高品質データの限界に近づいたことを示唆しています。」

この観察は、データ制約に関するAI業界全体の懸念の高まりを反映している。計算能力はよく理解された経済的および工学的原則に従って拡大し続ける一方、トレーニングデータは「ますます有限」になりつつあるとLi氏は指摘する。

「将来行う必要のある最も重要な研究の一部は、合成データ生成とデータ効率的なアルゴリズムおよびアーキテクチャの分野になると思われます」と彼は結論付けた。この課題は競技プログラミングにおいて特に深刻である。なぜなら、このドメインには既知の正解があり、自動的に検証できる問題が必要だからである。自然言語タスクのように人間による評価や代理指標で十分な場合とは異なり、コードは動くか動かないかのどちらかであり、合成データ生成をはるかに困難にしている。

Li氏は1つの潜在的な道筋を特定した。問題を解くだけでなく、解ける問題を生成するようにモデルをトレーニングし、ゲームAIシステムで成功した技術と同様の自己対戦を可能にするというものだ。「合成問題生成が解決されれば、自己対戦は非常に興味深い方向性になります」と彼は書いている。

オープンソースAIへの6500万ドルの賭け

Nous ResearchはAI分野で独自のポジションを築いてきた。オープンソースリリースにコミットし、プロプライエタリな代替品と競合し、時にはそれを凌駕するという姿勢である。同社は2025年4月、Coinbase共同創業者Fred Ehrsamが設立した暗号資産に特化したベンチャー企業Paradigmが主導するラウンドで5000万ドルを調達した。一部の報道によると、総調達額は6500万ドルに達した。この投資は、Nous ResearchがPsycheプラットフォームを開発している分散型AIトレーニングへの関心の高まりを反映している。

過去のリリースには、Hermes 4やDeepHermes-3が含まれる。同社は独特の美学とコミュニティを育んできたが、スタイルが内容を overshadow するのではないかとの懐疑的な見方もある。「もちろんアニメのプロフィール写真の会社を信じますよ。ベンチマークマックスするのやめてくれ」とX上の批評家は、Nous Researchのアニメ風ブランディングとベンチマークパフォーマンスを最適化する業界慣行に言及して書いた。

AIコーディングツールの改善に向けて

今回のリリースには、今後の研究の方向性を示すいくつかの項目が含まれている。マルチターンの強化学習が最優先事項である。現在、モデルはソリューション生成後に最終的なバイナリ報酬(合格か不合格か)のみを受け取る。しかし、競技プログラミング問題には通常、中間フィードバックを提供する公開テストケースが含まれる。コンパイルエラー、誤った出力、時間制限違反などだ。複数の試行にわたってこのフィードバックを組み込むようにモデルをトレーニングすることで、パフォーマンスが大幅に向上する可能性がある。

応答長の制御も依然として課題である。研究者らは、誤った解答は正しい解答よりも長くなる傾向があり、トレーニング中に応答長が利用可能なコンテキストウィンドウをすぐに飽和させることを発見した。これは様々なアルゴリズム修正でも解決できなかったパターンである。

最も野心的なのは、「問題生成と自己対戦」である。問題を解くだけでなく、プログラミング問題を作成するようにモデルをトレーニングする。これにより、モデルが自身のトレーニングカリキュラムを生成できるようになり、データ不足の問題に直接対処できる。「人間は他の競技プログラマーにとって面白くて有用な問題を生成するのが得意ですが、創造的な問題生成におけるLLMの能力には依然として大きなギャップがあるようです」とLi氏は書いている。

モデルは現在、Apache 2.0ライセンスでHugging Faceから入手可能である。この研究を基にしたい研究者や開発者のために、Nous Researchは完全なAtroposトレーニングスタックを公開している。

Li氏が10代の2年間をかけて達成したこと——Codeforcesで1600レベルの初心者から2100の競技者に上り詰めること——をAIは96時間で再現した。彼が必要としたのは1000問題、モデルは24000問題を必要とした。しかし、近い将来、これらのシステムは自分自身で問題を書き、自ら学び、人間のベンチマークを完全に置き去りにするかもしれない。

問題はもはや機械がコードを学べるかどうかではない。それは、機械がすぐに私たちよりも優れた教師になるかどうかである。