2026-06-15站内改写2 分鐘閱讀更新: 2026-06-15

自動化AI研究的初步探索

Recursive公司釋出了自動化AI研究系統的早期成果，在三個基準測試中實現了最先進的效能：固定預算語言模型訓練、小模型訓練速度和GPU核心最佳化。該系統自動化了研究迴圈，透過提出、實現、實驗、驗證和迭代來改進目標。在NanoChat任務中，系統以0.9109 BPB的表現超越了社群最佳結果；在NanoGPT Speedrun中，訓練時間縮短至77.5秒；在SOL-ExecBench中，GPU核心最佳化達到0.754的SOL得分。系統發現了多種創新技術，如雜湊表增強的n-gram嵌入和位元組級特徵。

來源Hacker News AI作者: gmays

Recursive公司今日釋出了其自動化AI研究系統的早期成果，該系統在三個關鍵基準測試中均達成了最先進的效能。這項成果標誌著AI研究自動化邁出了重要一步。

該系統能夠自動化整個研究迴圈：它會提出想法、實現方案、執行實驗、驗證結果，並利用學到的知識選擇下一個實驗。它能夠長時間執行多個研究執行緒，保留先前實驗的有用資訊，結合有前景的分支，並在將改進視為真正進展之前，透過驗證機制排除獎勵駭客行為和方差干擾。其設計具有可擴充套件性，並利用了開放演算法原理，借鑑了團隊此前在遞迴自我改進AI方面的工作。

測試的三個基準分別聚焦於AI進展的三個核心槓桿：更好的訓練演算法、更快的訓練速度以及更高效的硬體利用。它們都具備清晰指標、較低方差和可防禦獎勵駭客的評估器，非常適合自動化研究。

在NanoChat Autoresearch基準中，任務是在固定五分鐘預算內，用單GPU訓練小語言模型達到最低驗證損失。系統從初始種子方案出發，在H100 GPU上搜尋，然後遷移到B200 GPU進行公平比較。它找到了達到0.9109 BPB的方案，相比社群最優方案0.9372 BPB提升了0.0263，相當於以1.3倍更快的訓練時間達到相同損失。系統甚至從一個弱得多的起點——一個樸素的Transformer加AdamW——出發，也能改進到0.9344 BPB，同樣超越社群成果。

系統發現的改進並非單一技巧，而是架構、短上下文記憶、輔助損失、注意力機制、最佳化器行為、權重衰減排程、編譯器設定等多方面的組合。其中最大的收益之一來自更豐富的短上下文記憶機制：在已有值嵌入基礎上，系統引入了雜湊二元組和三元組嵌入表，透過可學習的門控混合到注意力值路徑中。這使模型能夠低成本地利用區域性n-gram資訊。

在NanoGPT Speedrun基準中，任務是用單臺H100 8-GPU節點，將小GPT模型訓練到固定驗證損失3.28的最短時間。這是一個已由社群最佳化兩年多的成熟基準。系統將訓練時間從79.7秒縮短至77.5秒，提速2.2秒。

第三個基準SOL-ExecBench涉及最佳化GPU核心使其接近硬體極限。系統在235個核心上的平均SOL得分從0.699提升至0.754，將效能差距縮小了18%。

Recursive團隊已將這些執行的產物開源，以便他人檢查並在此基礎上構建。這些結果展示了自動化AI研究系統的潛力，能夠在多個重要領域取得實際進展。