自动化AI研究的初步探索
Recursive公司发布了自动化AI研究系统的早期成果,在三个基准测试中实现了最先进的性能:固定预算语言模型训练、小模型训练速度和GPU内核优化。该系统自动化了研究循环,通过提出、实现、实验、验证和迭代来改进目标。在NanoChat任务中,系统以0.9109 BPB的表现超越了社区最佳结果;在NanoGPT Speedrun中,训练时间缩短至77.5秒;在SOL-ExecBench中,GPU内核优化达到0.754的SOL得分。系统发现了多种创新技术,如哈希表增强的n-gram嵌入和字节级特征。
Recursive公司今日发布了其自动化AI研究系统的早期成果,该系统在三个关键基准测试中均达成了最先进的性能。这项成果标志着AI研究自动化迈出了重要一步。
该系统能够自动化整个研究循环:它会提出想法、实现方案、运行实验、验证结果,并利用学到的知识选择下一个实验。它能够长时间运行多个研究线程,保留先前实验的有用信息,结合有前景的分支,并在将改进视为真正进展之前,通过验证机制排除奖励黑客行为和方差干扰。其设计具有可扩展性,并利用了开放算法原理,借鉴了团队此前在递归自我改进AI方面的工作。
测试的三个基准分别聚焦于AI进展的三个核心杠杆:更好的训练算法、更快的训练速度以及更高效的硬件利用。它们都具备清晰指标、较低方差和可防御奖励黑客的评估器,非常适合自动化研究。
在NanoChat Autoresearch基准中,任务是在固定五分钟预算内,用单GPU训练小语言模型达到最低验证损失。系统从初始种子方案出发,在H100 GPU上搜索,然后迁移到B200 GPU进行公平比较。它找到了达到0.9109 BPB的方案,相比社区最优方案0.9372 BPB提升了0.0263,相当于以1.3倍更快的训练时间达到相同损失。系统甚至从一个弱得多的起点——一个朴素的Transformer加AdamW——出发,也能改进到0.9344 BPB,同样超越社区成果。
系统发现的改进并非单一技巧,而是架构、短上下文记忆、辅助损失、注意力机制、优化器行为、权重衰减调度、编译器设置等多方面的组合。其中最大的收益之一来自更丰富的短上下文记忆机制:在已有值嵌入基础上,系统引入了哈希二元组和三元组嵌入表,通过可学习的门控混合到注意力值路径中。这使模型能够低成本地利用局部n-gram信息。
在NanoGPT Speedrun基准中,任务是用单台H100 8-GPU节点,将小GPT模型训练到固定验证损失3.28的最短时间。这是一个已由社区优化两年多的成熟基准。系统将训练时间从79.7秒缩短至77.5秒,提速2.2秒。
第三个基准SOL-ExecBench涉及优化GPU内核使其接近硬件极限。系统在235个内核上的平均SOL得分从0.699提升至0.754,将性能差距缩小了18%。
Recursive团队已将这些运行的产物开源,以便他人检查并在此基础上构建。这些结果展示了自动化AI研究系统的潜力,能够在多个重要领域取得实际进展。