AI News HubLIVE
站內改寫3 分鐘閱讀

自動縮放自動研究:在Modal上為您的智能體提供彈性GPU

Modal與Autoresearch集成,提供彈性GPU擴展,使AI智能體能夠動態調配計算資源。在Parameter Golf挑戰中,一個智能體在238個GPU小時內運行了113個實驗,與單個工作站相比實現了5倍加速,同時僅使用了專用集羣資源的一小部分。

Modal與Autoresearch的結合為AI研究帶來了全新的彈性計算能力。Karpathy-san發佈的Autoresearch工具讓AI能夠加速自身的研究,但隨之而來的一個老問題是:如何按需分配計算資源,既不浪費也不限制?Modal提供了完美的答案。通過一個簡單的演示,Tony Chen利用Claude Code和Modal Skills,在Parameter Golf挑戰中展示了這一能力:15小時內,智能體自主運行了113個實驗,消耗238 GPU小時,核心訓練運行速度比單個工作站快5倍,而資源消耗遠低於專用集羣。

研究負載的不可預測性是常態。一個研究者或智能體可能需要同時使用數十或數百個GPU進行超參數搜索,然後降至一個GPU調試問題,再擴展到多個8-GPU集羣進行驗證——所有這些都在同一工作會話中。傳統的“始終開啓”預留方案雖能提供突發容量,但成本高昂:智能體“思考”時,你仍在為閒置的集羣付費。而單個實例或工作站雖便宜易用,但只能串行運行實驗,迭代速度極慢。Modal通過自定義無服務器運行時,提供了兩全其美的方案:既有單機的易用性和成本控制,又有大型集羣的突發容量。

Modal不僅解決了計算量的問題,還解決了計算類型的問題。調試CUDA錯誤需要交互式沙箱,讓智能體檢查狀態並快速迭代;12小時的訓練運行需要帶重試和檢查點的容錯批處理作業;超參數搜索則需要大量並行獨立作業。傳統雲基礎設施迫使你和智能體選擇一種模式並堅持使用。而Modal讓智能體自己決定何時需要多少計算以及何種計算,基礎設施隨之自動調整。

智能體可以編寫訓練腳本,添加@app.function(gpu='H100:8')裝飾器,然後通過modal run啓動。如果出現bug,可以調用modal.Sandbox.create(gpu='H100:8')創建交互式沙箱。無論是哪種方式,GPU都在幾秒內啓動,從單GPU擴展到數十或數百個GPU只需更改一個參數。工作完成後,資源自動釋放——不會在醒來時看到閒置集羣整夜運行帶來的意外賬單。

OpenAI的Parameter Golf挑戰要求將語言模型壓縮到≤16 MB,並在8×H100上10分鐘內完成推理,最小化每字節比特數(BPB)。智能體利用Modal的彈性資源調配,自動縮放:探索階段啓動數十個廉價單GPU運行,驗證階段並行5個8×H100實驗,調試階段串行執行,最後擴展到零。

第一階段:管道驗證。智能體啓動單GPU沙箱,訓練一個800萬參數模型一個週期,量化並評估。四次快速實驗用了約一小時,確認管道端到端工作,BPB為1.42。此階段未加速(因僅用少量GPU),但效率極高,相比40-GPU集羣節省大量成本(集羣閒置98%)。

第二階段:廣泛探索。管道正常工作後,智能體需要探索超參數空間:模型大小、學習率、序列長度、訓練時長。它啓動了約40個獨立單GPU沙箱——每個實驗不同超參數組合,通過一次modal.Sandbox.create(gpu='H100')調用完成。整個廣泛搜索在36分鐘內完成。隨後聚焦到23個單GPU實驗和4個更大膽的運行,BPB從1.40降至1.34。探索階段總計約14 GPU小時,68個實驗。相比工作站,峯值加速達1.25倍(40分鐘 vs 3小時),效率節省顯著。

第三階段:大規模驗證。午夜時分,智能體有了最佳架構的清晰圖像,需要全規模驗證。它從單GPU擴展到8×H100每個實驗——只需將gpu='H100'改為gpu='H100:8'。五個最佳配置並行運行,5×8×H100,共40 GPU,BPB從1.34降至1.14。相比工作站,加速5倍(4小時 vs 20小時),效率節省較小但現實中的集羣很少完美預配置。

第四階段:調試。智能體遇到瓶頸:量化步驟在CPU上耗時超過45分鐘,導致提交超時。它先嚐試增加超時(45分鐘、60分鐘、90分鐘、兩小時),但每次運行都超時,花費5.5小時和60 GPU小時。然後改變方法,將量化步驟重寫為GPU運行,下一次實驗總用時52分鐘(包括訓練和量化)。此階段加速不大(1.25倍),但效率節省顯著。

第五階段:優化和完成。管道正常運行後,智能體進入優化階段。先驗證(2個並行8×H100實驗,BPB 1.1420),然後展開5個並行8×H100實驗——40個GPU同時運行,測試不同架構、學習率調度、正則化和數據混合策略。BPB從1.1230降至1.1206,最後一輪4×8×H100顯示回報遞減(1.1220),智能體降至零並停止。此階段加速3.8倍,效率節省1.3倍。

Modal證明了研究和規模並非必然矛盾。彈性縮放讓智能體在需要時獲得爆發性計算,在不需要時自動釋放,從而同時實現高速迭代和成本效率。嘗試將Modal Skills放入您的智能體,探索AI研究的無限可能。