2026-05-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

Aryabhata 2：扩展强化学习以提升高级STEM推理能力

Aryabhata 2是一个针对竞争性STEM考试（如JEE和NEET）优化的推理语言模型，基于GPT-OSS-20B通过强化学习后训练。它利用PhysicsWallah的内部题库构建高质量课程，并通过逐步增大的rollout组规模来扩展探索。实验表明，Aryabhata 2在多个基准测试中优于基础模型，同时输出令牌减少高达64%。

来源arXiv Computational Linguistics作者: Ritvik Rastogi, Vishal Singh, Tejas Chaudhari, Sandeep Varma

研究人员近日发布了Aryabhata 2，这是一款专注于推理的语言模型，旨在应对竞争性STEM考试（如JEE和NEET）中的复杂问题。这些考试要求多步符号推理、精确数值计算以及对物理、化学和数学的深入概念理解。尽管现有的大型语言模型在常见推理基准上表现强劲，但在大规模部署时仍面临挑战，尤其是当数百万学生需要特定领域且结构一致的问题解答时。

Aryabhata 2基于GPT-OSS-20B架构，通过强化学习后训练进行优化。训练过程利用了PhysicsWallah的内部题库，构建了高质量的训练课程。研究者结合了延长强化学习与逐步扩大rollout组规模的策略，以增强模型的探索能力。这种训练方法使模型能够更有效地学习复杂推理模式。

在评估阶段，Aryabhata 2在JEE Main、JEE Advanced和NEET等竞争性考试基准上进行了测试，同时也在AIME、HMMT、MMLU-Pro、MMLU-Redux 2.0和GPQA等分布外推理数据集上进行了验证。结果显示，Aryabhata 2在竞争性STEM推理任务上显著优于其基础模型GPT-OSS-20B，同时所需的输出令牌数量大幅减少——最多可减少64%。这意味着模型在保持甚至提升性能的同时，显著提高了效率。

这一成果为AI在教育和考试辅导领域的应用提供了新的可能性，尤其是在需要高精度推理的STEM学科中。Aryabhata 2的发布标志着针对特定领域推理的强化学习后训练取得了重要进展。研究论文于2026年4月10日提交至arXiv，作者包括Ritvik Rastogi等四人，论文编号为2605.28829。该工作还展示了如何利用PhysicsWallah等教育平台的数据来定制化训练模型，为未来教育科技的发展提供了新思路。