AI News HubLIVE
站内改写2 分鐘閱讀

自動化AI研究的初步探索

Recursive公司發佈了自動化AI研究系統的早期成果,在三個基準測試中實現了最先進的性能:固定預算語言模型訓練、小模型訓練速度和GPU內核優化。該系統自動化了研究循環,通過提出、實現、實驗、驗證和迭代來改進目標。在NanoChat任務中,系統以0.9109 BPB的表現超越了社區最佳結果;在NanoGPT Speedrun中,訓練時間縮短至77.5秒;在SOL-ExecBench中,GPU內核優化達到0.754的SOL得分。系統發現了多種創新技術,如哈希表增強的n-gram嵌入和字節級特徵。

來源Hacker News AI作者: gmays

Recursive公司今日發佈了其自動化AI研究系統的早期成果,該系統在三個關鍵基準測試中均達成了最先進的性能。這項成果標誌着AI研究自動化邁出了重要一步。

該系統能夠自動化整個研究循環:它會提出想法、實現方案、運行實驗、驗證結果,並利用學到的知識選擇下一個實驗。它能夠長時間運行多個研究線程,保留先前實驗的有用信息,結合有前景的分支,並在將改進視為真正進展之前,通過驗證機制排除獎勵黑客行為和方差干擾。其設計具有可擴展性,並利用了開放算法原理,借鑑了團隊此前在遞歸自我改進AI方面的工作。

測試的三個基準分別聚焦於AI進展的三個核心槓桿:更好的訓練算法、更快的訓練速度以及更高效的硬件利用。它們都具備清晰指標、較低方差和可防禦獎勵黑客的評估器,非常適合自動化研究。

在NanoChat Autoresearch基準中,任務是在固定五分鐘預算內,用單GPU訓練小語言模型達到最低驗證損失。系統從初始種子方案出發,在H100 GPU上搜索,然後遷移到B200 GPU進行公平比較。它找到了達到0.9109 BPB的方案,相比社區最優方案0.9372 BPB提升了0.0263,相當於以1.3倍更快的訓練時間達到相同損失。系統甚至從一個弱得多的起點——一個樸素的Transformer加AdamW——出發,也能改進到0.9344 BPB,同樣超越社區成果。

系統發現的改進並非單一技巧,而是架構、短上下文記憶、輔助損失、注意力機制、優化器行為、權重衰減調度、編譯器設置等多方面的組合。其中最大的收益之一來自更豐富的短上下文記憶機制:在已有值嵌入基礎上,系統引入了哈希二元組和三元組嵌入表,通過可學習的門控混合到注意力值路徑中。這使模型能夠低成本地利用局部n-gram信息。

在NanoGPT Speedrun基準中,任務是用單台H100 8-GPU節點,將小GPT模型訓練到固定驗證損失3.28的最短時間。這是一個已由社區優化兩年多的成熟基準。系統將訓練時間從79.7秒縮短至77.5秒,提速2.2秒。

第三個基準SOL-ExecBench涉及優化GPU內核使其接近硬件極限。系統在235個內核上的平均SOL得分從0.699提升至0.754,將性能差距縮小了18%。

Recursive團隊已將這些運行的產物開源,以便他人檢查並在此基礎上構建。這些結果展示了自動化AI研究系統的潛力,能夠在多個重要領域取得實際進展。