2026-06-15站内改写2 分钟阅读更新: 2026-06-15

自动化AI研究的初步探索

Recursive公司发布了自动化AI研究系统的早期成果，在三个基准测试中实现了最先进的性能：固定预算语言模型训练、小模型训练速度和GPU内核优化。该系统自动化了研究循环，通过提出、实现、实验、验证和迭代来改进目标。在NanoChat任务中，系统以0.9109 BPB的表现超越了社区最佳结果；在NanoGPT Speedrun中，训练时间缩短至77.5秒；在SOL-ExecBench中，GPU内核优化达到0.754的SOL得分。系统发现了多种创新技术，如哈希表增强的n-gram嵌入和字节级特征。

来源Hacker News AI作者: gmays

Recursive公司今日发布了其自动化AI研究系统的早期成果，该系统在三个关键基准测试中均达成了最先进的性能。这项成果标志着AI研究自动化迈出了重要一步。

该系统能够自动化整个研究循环：它会提出想法、实现方案、运行实验、验证结果，并利用学到的知识选择下一个实验。它能够长时间运行多个研究线程，保留先前实验的有用信息，结合有前景的分支，并在将改进视为真正进展之前，通过验证机制排除奖励黑客行为和方差干扰。其设计具有可扩展性，并利用了开放算法原理，借鉴了团队此前在递归自我改进AI方面的工作。

测试的三个基准分别聚焦于AI进展的三个核心杠杆：更好的训练算法、更快的训练速度以及更高效的硬件利用。它们都具备清晰指标、较低方差和可防御奖励黑客的评估器，非常适合自动化研究。

在NanoChat Autoresearch基准中，任务是在固定五分钟预算内，用单GPU训练小语言模型达到最低验证损失。系统从初始种子方案出发，在H100 GPU上搜索，然后迁移到B200 GPU进行公平比较。它找到了达到0.9109 BPB的方案，相比社区最优方案0.9372 BPB提升了0.0263，相当于以1.3倍更快的训练时间达到相同损失。系统甚至从一个弱得多的起点——一个朴素的Transformer加AdamW——出发，也能改进到0.9344 BPB，同样超越社区成果。

系统发现的改进并非单一技巧，而是架构、短上下文记忆、辅助损失、注意力机制、优化器行为、权重衰减调度、编译器设置等多方面的组合。其中最大的收益之一来自更丰富的短上下文记忆机制：在已有值嵌入基础上，系统引入了哈希二元组和三元组嵌入表，通过可学习的门控混合到注意力值路径中。这使模型能够低成本地利用局部n-gram信息。

在NanoGPT Speedrun基准中，任务是用单台H100 8-GPU节点，将小GPT模型训练到固定验证损失3.28的最短时间。这是一个已由社区优化两年多的成熟基准。系统将训练时间从79.7秒缩短至77.5秒，提速2.2秒。

第三个基准SOL-ExecBench涉及优化GPU内核使其接近硬件极限。系统在235个内核上的平均SOL得分从0.699提升至0.754，将性能差距缩小了18%。

Recursive团队已将这些运行的产物开源，以便他人检查并在此基础上构建。这些结果展示了自动化AI研究系统的潜力，能够在多个重要领域取得实际进展。