自動縮放自動研究:在Modal上為您的智慧體提供彈性GPU
Modal與Autoresearch整合,提供彈性GPU擴充套件,使AI智慧體能夠動態調配計算資源。在Parameter Golf挑戰中,一個智慧體在238個GPU小時內執行了113個實驗,與單個工作站相比實現了5倍加速,同時僅使用了專用叢集資源的一小部分。
Modal與Autoresearch的結合為AI研究帶來了全新的彈性計算能力。Karpathy-san釋出的Autoresearch工具讓AI能夠加速自身的研究,但隨之而來的一個老問題是:如何按需分配計算資源,既不浪費也不限制?Modal提供了完美的答案。透過一個簡單的演示,Tony Chen利用Claude Code和Modal Skills,在Parameter Golf挑戰中展示了這一能力:15小時內,智慧體自主執行了113個實驗,消耗238 GPU小時,核心訓練執行速度比單個工作站快5倍,而資源消耗遠低於專用叢集。
研究負載的不可預測性是常態。一個研究者或智慧體可能需要同時使用數十或數百個GPU進行超引數搜尋,然後降至一個GPU除錯問題,再擴充套件到多個8-GPU叢集進行驗證——所有這些都在同一工作會話中。傳統的“始終開啟”預留方案雖能提供突發容量,但成本高昂:智慧體“思考”時,你仍在為閒置的叢集付費。而單個例項或工作站雖便宜易用,但只能序列執行實驗,迭代速度極慢。Modal透過自定義無伺服器執行時,提供了兩全其美的方案:既有單機的易用性和成本控制,又有大型叢集的突發容量。
Modal不僅解決了計算量的問題,還解決了計算型別的問題。除錯CUDA錯誤需要互動式沙箱,讓智慧體檢查狀態並快速迭代;12小時的訓練執行需要帶重試和檢查點的容錯批處理作業;超引數搜尋則需要大量並行獨立作業。傳統雲基礎設施迫使你和智慧體選擇一種模式並堅持使用。而Modal讓智慧體自己決定何時需要多少計算以及何種計算,基礎設施隨之自動調整。
智慧體可以編寫訓練指令碼,新增@app.function(gpu='H100:8')裝飾器,然後透過modal run啟動。如果出現bug,可以呼叫modal.Sandbox.create(gpu='H100:8')建立互動式沙箱。無論是哪種方式,GPU都在幾秒內啟動,從單GPU擴充套件到數十或數百個GPU只需更改一個引數。工作完成後,資源自動釋放——不會在醒來時看到閒置叢集整夜執行帶來的意外賬單。
OpenAI的Parameter Golf挑戰要求將語言模型壓縮到≤16 MB,並在8×H100上10分鐘內完成推理,最小化每位元組位元數(BPB)。智慧體利用Modal的彈性資源調配,自動縮放:探索階段啟動數十個廉價單GPU執行,驗證階段並行5個8×H100實驗,除錯階段序列執行,最後擴充套件到零。
第一階段:管道驗證。智慧體啟動單GPU沙箱,訓練一個800萬引數模型一個週期,量化並評估。四次快速實驗用了約一小時,確認管道端到端工作,BPB為1.42。此階段未加速(因僅用少量GPU),但效率極高,相比40-GPU叢集節省大量成本(叢集閒置98%)。
第二階段:廣泛探索。管道正常工作後,智慧體需要探索超引數空間:模型大小、學習率、序列長度、訓練時長。它啟動了約40個獨立單GPU沙箱——每個實驗不同超引數組合,透過一次modal.Sandbox.create(gpu='H100')呼叫完成。整個廣泛搜尋在36分鐘內完成。隨後聚焦到23個單GPU實驗和4個更大膽的執行,BPB從1.40降至1.34。探索階段總計約14 GPU小時,68個實驗。相比工作站,峰值加速達1.25倍(40分鐘 vs 3小時),效率節省顯著。
第三階段:大規模驗證。午夜時分,智慧體有了最佳架構的清晰影像,需要全規模驗證。它從單GPU擴充套件到8×H100每個實驗——只需將gpu='H100'改為gpu='H100:8'。五個最佳配置並行執行,5×8×H100,共40 GPU,BPB從1.34降至1.14。相比工作站,加速5倍(4小時 vs 20小時),效率節省較小但現實中的叢集很少完美預配置。
第四階段:除錯。智慧體遇到瓶頸:量化步驟在CPU上耗時超過45分鐘,導致提交超時。它先嚐試增加超時(45分鐘、60分鐘、90分鐘、兩小時),但每次執行都超時,花費5.5小時和60 GPU小時。然後改變方法,將量化步驟重寫為GPU執行,下一次實驗總用時52分鐘(包括訓練和量化)。此階段加速不大(1.25倍),但效率節省顯著。
第五階段:最佳化和完成。管道正常執行後,智慧體進入最佳化階段。先驗證(2個並行8×H100實驗,BPB 1.1420),然後展開5個並行8×H100實驗——40個GPU同時執行,測試不同架構、學習率排程、正則化和資料混合策略。BPB從1.1230降至1.1206,最後一輪4×8×H100顯示回報遞減(1.1220),智慧體降至零並停止。此階段加速3.8倍,效率節省1.3倍。
Modal證明了研究和規模並非必然矛盾。彈性縮放讓智慧體在需要時獲得爆發性計算,在不需要時自動釋放,從而同時實現高速迭代和成本效率。嘗試將Modal Skills放入您的智慧體,探索AI研究的無限可能。