2026-04-14 08:00 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

自動縮放自動研究：在Modal上為您的智慧體提供彈性GPU

Modal與Autoresearch整合，提供彈性GPU擴充套件，使AI智慧體能夠動態調配計算資源。在Parameter Golf挑戰中，一個智慧體在238個GPU小時內執行了113個實驗，與單個工作站相比實現了5倍加速，同時僅使用了專用叢集資源的一小部分。

來源Modal Blog

Modal與Autoresearch的結合為AI研究帶來了全新的彈性計算能力。Karpathy-san釋出的Autoresearch工具讓AI能夠加速自身的研究，但隨之而來的一個老問題是：如何按需分配計算資源，既不浪費也不限制？Modal提供了完美的答案。透過一個簡單的演示，Tony Chen利用Claude Code和Modal Skills，在Parameter Golf挑戰中展示了這一能力：15小時內，智慧體自主執行了113個實驗，消耗238 GPU小時，核心訓練執行速度比單個工作站快5倍，而資源消耗遠低於專用叢集。

研究負載的不可預測性是常態。一個研究者或智慧體可能需要同時使用數十或數百個GPU進行超引數搜尋，然後降至一個GPU除錯問題，再擴充套件到多個8-GPU叢集進行驗證——所有這些都在同一工作會話中。傳統的“始終開啟”預留方案雖能提供突發容量，但成本高昂：智慧體“思考”時，你仍在為閒置的叢集付費。而單個例項或工作站雖便宜易用，但只能序列執行實驗，迭代速度極慢。Modal透過自定義無伺服器執行時，提供了兩全其美的方案：既有單機的易用性和成本控制，又有大型叢集的突發容量。

Modal不僅解決了計算量的問題，還解決了計算型別的問題。除錯CUDA錯誤需要互動式沙箱，讓智慧體檢查狀態並快速迭代；12小時的訓練執行需要帶重試和檢查點的容錯批處理作業；超引數搜尋則需要大量並行獨立作業。傳統雲基礎設施迫使你和智慧體選擇一種模式並堅持使用。而Modal讓智慧體自己決定何時需要多少計算以及何種計算，基礎設施隨之自動調整。

智慧體可以編寫訓練指令碼，新增@app.function(gpu='H100:8')裝飾器，然後透過modal run啟動。如果出現bug，可以呼叫modal.Sandbox.create(gpu='H100:8')建立互動式沙箱。無論是哪種方式，GPU都在幾秒內啟動，從單GPU擴充套件到數十或數百個GPU只需更改一個引數。工作完成後，資源自動釋放——不會在醒來時看到閒置叢集整夜執行帶來的意外賬單。

OpenAI的Parameter Golf挑戰要求將語言模型壓縮到≤16 MB，並在8×H100上10分鐘內完成推理，最小化每位元組位元數（BPB）。智慧體利用Modal的彈性資源調配，自動縮放：探索階段啟動數十個廉價單GPU執行，驗證階段並行5個8×H100實驗，除錯階段序列執行，最後擴充套件到零。

第一階段：管道驗證。智慧體啟動單GPU沙箱，訓練一個800萬引數模型一個週期，量化並評估。四次快速實驗用了約一小時，確認管道端到端工作，BPB為1.42。此階段未加速（因僅用少量GPU），但效率極高，相比40-GPU叢集節省大量成本（叢集閒置98%）。

第二階段：廣泛探索。管道正常工作後，智慧體需要探索超引數空間：模型大小、學習率、序列長度、訓練時長。它啟動了約40個獨立單GPU沙箱——每個實驗不同超引數組合，透過一次modal.Sandbox.create(gpu='H100')呼叫完成。整個廣泛搜尋在36分鐘內完成。隨後聚焦到23個單GPU實驗和4個更大膽的執行，BPB從1.40降至1.34。探索階段總計約14 GPU小時，68個實驗。相比工作站，峰值加速達1.25倍（40分鐘 vs 3小時），效率節省顯著。

第三階段：大規模驗證。午夜時分，智慧體有了最佳架構的清晰影像，需要全規模驗證。它從單GPU擴充套件到8×H100每個實驗——只需將gpu='H100'改為gpu='H100:8'。五個最佳配置並行執行，5×8×H100，共40 GPU，BPB從1.34降至1.14。相比工作站，加速5倍（4小時 vs 20小時），效率節省較小但現實中的叢集很少完美預配置。

第四階段：除錯。智慧體遇到瓶頸：量化步驟在CPU上耗時超過45分鐘，導致提交超時。它先嚐試增加超時（45分鐘、60分鐘、90分鐘、兩小時），但每次執行都超時，花費5.5小時和60 GPU小時。然後改變方法，將量化步驟重寫為GPU執行，下一次實驗總用時52分鐘（包括訓練和量化）。此階段加速不大（1.25倍），但效率節省顯著。

第五階段：最佳化和完成。管道正常執行後，智慧體進入最佳化階段。先驗證（2個並行8×H100實驗，BPB 1.1420），然後展開5個並行8×H100實驗——40個GPU同時執行，測試不同架構、學習率排程、正則化和資料混合策略。BPB從1.1230降至1.1206，最後一輪4×8×H100顯示回報遞減（1.1220），智慧體降至零並停止。此階段加速3.8倍，效率節省1.3倍。

Modal證明了研究和規模並非必然矛盾。彈性縮放讓智慧體在需要時獲得爆發性計算，在不需要時自動釋放，從而同時實現高速迭代和成本效率。嘗試將Modal Skills放入您的智慧體，探索AI研究的無限可能。