AI News HubLIVE
站内改写

Aryabhata 2:扩展强化学习以提升高级STEM推理能力

Aryabhata 2是一个针对竞争性STEM考试(如JEE和NEET)优化的推理语言模型,基于GPT-OSS-20B通过强化学习后训练。它利用PhysicsWallah的内部题库构建高质量课程,并通过逐步增大的rollout组规模来扩展探索。实验表明,Aryabhata 2在多个基准测试中优于基础模型,同时输出令牌减少高达64%。

文章情报

工程师进阶

要点

  • Aryabhata 2采用强化学习后训练,专为JEE、NEET等竞争性STEM考试设计。
  • 模型基于GPT-OSS-20B,使用PhysicsWallah的定制题库进行训练。
  • 通过逐步扩大rollout组规模延长强化学习,提升探索能力。
  • 在JEE、AIME、MMLU-Pro等测试中表现优异,令牌效率提高64%。

为什么重要

这条新闻值得关注,因为Aryabhata 2采用强化学习后训练,专为JEE、NEET等竞争性STEM考试设计。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

研究人员近日发布了Aryabhata 2,这是一款专注于推理的语言模型,旨在应对竞争性STEM考试(如JEE和NEET)中的复杂问题。这些考试要求多步符号推理、精确数值计算以及对物理、化学和数学的深入概念理解。尽管现有的大型语言模型在常见推理基准上表现强劲,但在大规模部署时仍面临挑战,尤其是当数百万学生需要特定领域且结构一致的问题解答时。

Aryabhata 2基于GPT-OSS-20B架构,通过强化学习后训练进行优化。训练过程利用了PhysicsWallah的内部题库,构建了高质量的训练课程。研究者结合了延长强化学习与逐步扩大rollout组规模的策略,以增强模型的探索能力。这种训练方法使模型能够更有效地学习复杂推理模式。

在评估阶段,Aryabhata 2在JEE Main、JEE Advanced和NEET等竞争性考试基准上进行了测试,同时也在AIME、HMMT、MMLU-Pro、MMLU-Redux 2.0和GPQA等分布外推理数据集上进行了验证。结果显示,Aryabhata 2在竞争性STEM推理任务上显著优于其基础模型GPT-OSS-20B,同时所需的输出令牌数量大幅减少——最多可减少64%。这意味着模型在保持甚至提升性能的同时,显著提高了效率。

这一成果为AI在教育和考试辅导领域的应用提供了新的可能性,尤其是在需要高精度推理的STEM学科中。Aryabhata 2的发布标志着针对特定领域推理的强化学习后训练取得了重要进展。研究论文于2026年4月10日提交至arXiv,作者包括Ritvik Rastogi等四人,论文编号为2605.28829。该工作还展示了如何利用PhysicsWallah等教育平台的数据来定制化训练模型,为未来教育科技的发展提供了新思路。