AI News HubLIVE
站内改写

Aryabhata 2:高度なSTEM推論のための強化学習の拡張

Aryabhata 2は、JEEやNEETなどの競争的STEM試験に特化した推論言語モデルであり、GPT-OSS-20Bを強化学習で後訓練したものです。PhysicsWallahの内部問題バンクを活用し、段階的にロールアウトグループサイズを拡大することで探索を促進します。評価では、ベースモデルを上回る性能を示し、出力トークンを最大64%削減しました。

記事インテリジェンス

エンジニア上級

要点

  • Aryabhata 2は、競争的STEM試験向けに強化学習後訓練を適用。
  • GPT-OSS-20Bをベースに、PhysicsWallahのカスタム問題バンクを使用。
  • ロールアウトグループサイズを徐々に拡大して強化学習を長期化。
  • JEE、AIME、MMLU-Proなどでベースモデルを凌ぎ、トークン効率が64%向上。

重要な理由

このニュースが重要なのは、Aryabhata 2は、競争的STEM試験向けに強化学習後訓練を適用ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

研究者らは、競争的STEM試験(JEEやNEETなど)における複雑な問題解決を目的とした推論特化型言語モデル「Aryabhata 2」を発表しました。これらの試験では、多段階の記号推論、精密な数値計算、物理学・化学・数学にわたる深い概念理解が求められます。最近の大規模言語モデルは一般的な推論ベンチマークで強力な性能を示していますが、数百万の学生がドメイン固有で一貫性のある問題解決を要求する大規模展開は依然として困難です。

Aryabhata 2は、GPT-OSS-20Bアーキテクチャを基盤とし、強化学習による後訓練を施しています。訓練にはPhysicsWallahの内部問題バンクを利用し、高品質なカリキュラムを構築しました。特に、強化学習の長期化と、ロールアウトグループサイズを段階的に拡大する戦略を組み合わせることで、モデルの探索能力を強化しています。

評価では、JEE Main、JEE Advanced、NEETなどの競争的試験ベンチマークに加え、AIME、HMMT、MMLU-Pro、MMLU-Redux 2.0、GPQAといった分布外の推論データセットでもテストされました。結果として、Aryabhata 2はベースモデルであるGPT-OSS-20Bを競争的STEM推論で上回り、しかも出力トークンを最大64%削減することに成功しました。この効率向上は、性能を維持または改善しながら大幅なコスト削減を可能にします。

この成果は、特にSTEM分野における高精度推論が求められる教育や試験対策へのAI応用に新たな可能性をもたらします。Aryabhata 2の登場は、特定ドメインの推論に向けた強化学習後訓練の重要な進展を示しています。研究論文は2026年4月10日にarXivに投稿され、著者はRitvik Rastogiを含む4名、論文番号は2605.28829です。PhysicsWallahのような教育プラットフォームのデータを活用したカスタム訓練手法は、今後の教育テクノロジーの発展に新たな方向性を示唆しています。