Aryabhata 2:擴展強化學習以提升高級STEM推理能力
Aryabhata 2是一個針對競爭性STEM考試(如JEE和NEET)優化的推理語言模型,基於GPT-OSS-20B通過強化學習後訓練。它利用PhysicsWallah的內部題庫構建高質量課程,並通過逐步增大的rollout組規模來擴展探索。實驗表明,Aryabhata 2在多個基準測試中優於基礎模型,同時輸出令牌減少高達64%。
文章情報
要點
- Aryabhata 2採用強化學習後訓練,專為JEE、NEET等競爭性STEM考試設計。
- 模型基於GPT-OSS-20B,使用PhysicsWallah的定製題庫進行訓練。
- 通過逐步擴大rollout組規模延長強化學習,提升探索能力。
- 在JEE、AIME、MMLU-Pro等測試中表現優異,令牌效率提高64%。
為甚麼重要
這條新聞值得關注,因為Aryabhata 2採用強化學習後訓練,專為JEE、NEET等競爭性STEM考試設計。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
研究人員近日發佈了Aryabhata 2,這是一款專注於推理的語言模型,旨在應對競爭性STEM考試(如JEE和NEET)中的複雜問題。這些考試要求多步符號推理、精確數值計算以及對物理、化學和數學的深入概念理解。儘管現有的大型語言模型在常見推理基準上表現強勁,但在大規模部署時仍面臨挑戰,尤其是當數百萬學生需要特定領域且結構一致的問題解答時。
Aryabhata 2基於GPT-OSS-20B架構,通過強化學習後訓練進行優化。訓練過程利用了PhysicsWallah的內部題庫,構建了高質量的訓練課程。研究者結合了延長強化學習與逐步擴大rollout組規模的策略,以增強模型的探索能力。這種訓練方法使模型能夠更有效地學習複雜推理模式。
在評估階段,Aryabhata 2在JEE Main、JEE Advanced和NEET等競爭性考試基準上進行了測試,同時也在AIME、HMMT、MMLU-Pro、MMLU-Redux 2.0和GPQA等分佈外推理數據集上進行了驗證。結果顯示,Aryabhata 2在競爭性STEM推理任務上顯著優於其基礎模型GPT-OSS-20B,同時所需的輸出令牌數量大幅減少——最多可減少64%。這意味着模型在保持甚至提升性能的同時,顯著提高了效率。
這一成果為AI在教育和考試輔導領域的應用提供了新的可能性,尤其是在需要高精度推理的STEM學科中。Aryabhata 2的發佈標誌着針對特定領域推理的強化學習後訓練取得了重要進展。研究論文於2026年4月10日提交至arXiv,作者包括Ritvik Rastogi等四人,論文編號為2605.28829。該工作還展示瞭如何利用PhysicsWallah等教育平台的數據來定製化訓練模型,為未來教育科技的發展提供了新思路。