2026-05-29 13:00 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 22:03 UTC+9

Aryabhata 2：高度なSTEM推論のための強化学習の拡張

Aryabhata 2は、JEEやNEETなどの競争的STEM試験に特化した推論言語モデルであり、GPT-OSS-20Bを強化学習で後訓練したものです。PhysicsWallahの内部問題バンクを活用し、段階的にロールアウトグループサイズを拡大することで探索を促進します。評価では、ベースモデルを上回る性能を示し、出力トークンを最大64%削減しました。

ソースarXiv Computational Linguistics著者: Ritvik Rastogi, Vishal Singh, Tejas Chaudhari, Sandeep Varma

研究者らは、競争的STEM試験（JEEやNEETなど）における複雑な問題解決を目的とした推論特化型言語モデル「Aryabhata 2」を発表しました。これらの試験では、多段階の記号推論、精密な数値計算、物理学・化学・数学にわたる深い概念理解が求められます。最近の大規模言語モデルは一般的な推論ベンチマークで強力な性能を示していますが、数百万の学生がドメイン固有で一貫性のある問題解決を要求する大規模展開は依然として困難です。

Aryabhata 2は、GPT-OSS-20Bアーキテクチャを基盤とし、強化学習による後訓練を施しています。訓練にはPhysicsWallahの内部問題バンクを利用し、高品質なカリキュラムを構築しました。特に、強化学習の長期化と、ロールアウトグループサイズを段階的に拡大する戦略を組み合わせることで、モデルの探索能力を強化しています。

評価では、JEE Main、JEE Advanced、NEETなどの競争的試験ベンチマークに加え、AIME、HMMT、MMLU-Pro、MMLU-Redux 2.0、GPQAといった分布外の推論データセットでもテストされました。結果として、Aryabhata 2はベースモデルであるGPT-OSS-20Bを競争的STEM推論で上回り、しかも出力トークンを最大64%削減することに成功しました。この効率向上は、性能を維持または改善しながら大幅なコスト削減を可能にします。

この成果は、特にSTEM分野における高精度推論が求められる教育や試験対策へのAI応用に新たな可能性をもたらします。Aryabhata 2の登場は、特定ドメインの推論に向けた強化学習後訓練の重要な進展を示しています。研究論文は2026年4月10日にarXivに投稿され、著者はRitvik Rastogiを含む4名、論文番号は2605.28829です。PhysicsWallahのような教育プラットフォームのデータを活用したカスタム訓練手法は、今後の教育テクノロジーの発展に新たな方向性を示唆しています。