自動化AI研究的初步探索
Recursive公司釋出了自動化AI研究系統的早期成果,在三個基準測試中實現了最先進的效能:固定預算語言模型訓練、小模型訓練速度和GPU核心最佳化。該系統自動化了研究迴圈,透過提出、實現、實驗、驗證和迭代來改進目標。在NanoChat任務中,系統以0.9109 BPB的表現超越了社群最佳結果;在NanoGPT Speedrun中,訓練時間縮短至77.5秒;在SOL-ExecBench中,GPU核心最佳化達到0.754的SOL得分。系統發現了多種創新技術,如雜湊表增強的n-gram嵌入和位元組級特徵。
Recursive公司今日釋出了其自動化AI研究系統的早期成果,該系統在三個關鍵基準測試中均達成了最先進的效能。這項成果標誌著AI研究自動化邁出了重要一步。
該系統能夠自動化整個研究迴圈:它會提出想法、實現方案、執行實驗、驗證結果,並利用學到的知識選擇下一個實驗。它能夠長時間執行多個研究執行緒,保留先前實驗的有用資訊,結合有前景的分支,並在將改進視為真正進展之前,透過驗證機制排除獎勵駭客行為和方差干擾。其設計具有可擴充套件性,並利用了開放演算法原理,借鑑了團隊此前在遞迴自我改進AI方面的工作。
測試的三個基準分別聚焦於AI進展的三個核心槓桿:更好的訓練演算法、更快的訓練速度以及更高效的硬體利用。它們都具備清晰指標、較低方差和可防禦獎勵駭客的評估器,非常適合自動化研究。
在NanoChat Autoresearch基準中,任務是在固定五分鐘預算內,用單GPU訓練小語言模型達到最低驗證損失。系統從初始種子方案出發,在H100 GPU上搜尋,然後遷移到B200 GPU進行公平比較。它找到了達到0.9109 BPB的方案,相比社群最優方案0.9372 BPB提升了0.0263,相當於以1.3倍更快的訓練時間達到相同損失。系統甚至從一個弱得多的起點——一個樸素的Transformer加AdamW——出發,也能改進到0.9344 BPB,同樣超越社群成果。
系統發現的改進並非單一技巧,而是架構、短上下文記憶、輔助損失、注意力機制、最佳化器行為、權重衰減排程、編譯器設定等多方面的組合。其中最大的收益之一來自更豐富的短上下文記憶機制:在已有值嵌入基礎上,系統引入了雜湊二元組和三元組嵌入表,透過可學習的門控混合到注意力值路徑中。這使模型能夠低成本地利用區域性n-gram資訊。
在NanoGPT Speedrun基準中,任務是用單臺H100 8-GPU節點,將小GPT模型訓練到固定驗證損失3.28的最短時間。這是一個已由社群最佳化兩年多的成熟基準。系統將訓練時間從79.7秒縮短至77.5秒,提速2.2秒。
第三個基準SOL-ExecBench涉及最佳化GPU核心使其接近硬體極限。系統在235個核心上的平均SOL得分從0.699提升至0.754,將效能差距縮小了18%。
Recursive團隊已將這些執行的產物開源,以便他人檢查並在此基礎上構建。這些結果展示了自動化AI研究系統的潛力,能夠在多個重要領域取得實際進展。