2026-05-29 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Aryabhata 2：擴展強化學習以提升高級STEM推理能力

Aryabhata 2是一個針對競爭性STEM考試（如JEE和NEET）優化的推理語言模型，基於GPT-OSS-20B通過強化學習後訓練。它利用PhysicsWallah的內部題庫構建高質量課程，並通過逐步增大的rollout組規模來擴展探索。實驗表明，Aryabhata 2在多個基準測試中優於基礎模型，同時輸出令牌減少高達64%。

來源arXiv Computational Linguistics作者: Ritvik Rastogi, Vishal Singh, Tejas Chaudhari, Sandeep Varma

研究人員近日發佈了Aryabhata 2，這是一款專注於推理的語言模型，旨在應對競爭性STEM考試（如JEE和NEET）中的複雜問題。這些考試要求多步符號推理、精確數值計算以及對物理、化學和數學的深入概念理解。儘管現有的大型語言模型在常見推理基準上表現強勁，但在大規模部署時仍面臨挑戰，尤其是當數百萬學生需要特定領域且結構一致的問題解答時。

Aryabhata 2基於GPT-OSS-20B架構，通過強化學習後訓練進行優化。訓練過程利用了PhysicsWallah的內部題庫，構建了高質量的訓練課程。研究者結合了延長強化學習與逐步擴大rollout組規模的策略，以增強模型的探索能力。這種訓練方法使模型能夠更有效地學習複雜推理模式。

在評估階段，Aryabhata 2在JEE Main、JEE Advanced和NEET等競爭性考試基準上進行了測試，同時也在AIME、HMMT、MMLU-Pro、MMLU-Redux 2.0和GPQA等分佈外推理數據集上進行了驗證。結果顯示，Aryabhata 2在競爭性STEM推理任務上顯著優於其基礎模型GPT-OSS-20B，同時所需的輸出令牌數量大幅減少——最多可減少64%。這意味着模型在保持甚至提升性能的同時，顯著提高了效率。

這一成果為AI在教育和考試輔導領域的應用提供了新的可能性，尤其是在需要高精度推理的STEM學科中。Aryabhata 2的發佈標誌着針對特定領域推理的強化學習後訓練取得了重要進展。研究論文於2026年4月10日提交至arXiv，作者包括Ritvik Rastogi等四人，論文編號為2605.28829。該工作還展示瞭如何利用PhysicsWallah等教育平台的數據來定製化訓練模型，為未來教育科技的發展提供了新思路。