2026-06-15站内改写2 分鐘閱讀更新: 2026-06-15

自動化AI研究的初步探索

Recursive公司發佈了自動化AI研究系統的早期成果，在三個基準測試中實現了最先進的性能：固定預算語言模型訓練、小模型訓練速度和GPU內核優化。該系統自動化了研究循環，通過提出、實現、實驗、驗證和迭代來改進目標。在NanoChat任務中，系統以0.9109 BPB的表現超越了社區最佳結果；在NanoGPT Speedrun中，訓練時間縮短至77.5秒；在SOL-ExecBench中，GPU內核優化達到0.754的SOL得分。系統發現了多種創新技術，如哈希表增強的n-gram嵌入和字節級特徵。

來源Hacker News AI作者: gmays

Recursive公司今日發佈了其自動化AI研究系統的早期成果，該系統在三個關鍵基準測試中均達成了最先進的性能。這項成果標誌着AI研究自動化邁出了重要一步。

該系統能夠自動化整個研究循環：它會提出想法、實現方案、運行實驗、驗證結果，並利用學到的知識選擇下一個實驗。它能夠長時間運行多個研究線程，保留先前實驗的有用信息，結合有前景的分支，並在將改進視為真正進展之前，通過驗證機制排除獎勵黑客行為和方差干擾。其設計具有可擴展性，並利用了開放算法原理，借鑑了團隊此前在遞歸自我改進AI方面的工作。

測試的三個基準分別聚焦於AI進展的三個核心槓桿：更好的訓練算法、更快的訓練速度以及更高效的硬件利用。它們都具備清晰指標、較低方差和可防禦獎勵黑客的評估器，非常適合自動化研究。

在NanoChat Autoresearch基準中，任務是在固定五分鐘預算內，用單GPU訓練小語言模型達到最低驗證損失。系統從初始種子方案出發，在H100 GPU上搜索，然後遷移到B200 GPU進行公平比較。它找到了達到0.9109 BPB的方案，相比社區最優方案0.9372 BPB提升了0.0263，相當於以1.3倍更快的訓練時間達到相同損失。系統甚至從一個弱得多的起點——一個樸素的Transformer加AdamW——出發，也能改進到0.9344 BPB，同樣超越社區成果。

系統發現的改進並非單一技巧，而是架構、短上下文記憶、輔助損失、注意力機制、優化器行為、權重衰減調度、編譯器設置等多方面的組合。其中最大的收益之一來自更豐富的短上下文記憶機制：在已有值嵌入基礎上，系統引入了哈希二元組和三元組嵌入表，通過可學習的門控混合到注意力值路徑中。這使模型能夠低成本地利用局部n-gram信息。

在NanoGPT Speedrun基準中，任務是用單台H100 8-GPU節點，將小GPT模型訓練到固定驗證損失3.28的最短時間。這是一個已由社區優化兩年多的成熟基準。系統將訓練時間從79.7秒縮短至77.5秒，提速2.2秒。

第三個基準SOL-ExecBench涉及優化GPU內核使其接近硬件極限。系統在235個內核上的平均SOL得分從0.699提升至0.754，將性能差距縮小了18%。

Recursive團隊已將這些運行的產物開源，以便他人檢查並在此基礎上構建。這些結果展示了自動化AI研究系統的潛力，能夠在多個重要領域取得實際進展。