2026-04-14 08:00 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

自動縮放自動研究：在Modal上為您的智能體提供彈性GPU

Modal與Autoresearch集成，提供彈性GPU擴展，使AI智能體能夠動態調配計算資源。在Parameter Golf挑戰中，一個智能體在238個GPU小時內運行了113個實驗，與單個工作站相比實現了5倍加速，同時僅使用了專用集羣資源的一小部分。

來源Modal Blog

Modal與Autoresearch的結合為AI研究帶來了全新的彈性計算能力。Karpathy-san發佈的Autoresearch工具讓AI能夠加速自身的研究，但隨之而來的一個老問題是：如何按需分配計算資源，既不浪費也不限制？Modal提供了完美的答案。通過一個簡單的演示，Tony Chen利用Claude Code和Modal Skills，在Parameter Golf挑戰中展示了這一能力：15小時內，智能體自主運行了113個實驗，消耗238 GPU小時，核心訓練運行速度比單個工作站快5倍，而資源消耗遠低於專用集羣。

研究負載的不可預測性是常態。一個研究者或智能體可能需要同時使用數十或數百個GPU進行超參數搜索，然後降至一個GPU調試問題，再擴展到多個8-GPU集羣進行驗證——所有這些都在同一工作會話中。傳統的“始終開啓”預留方案雖能提供突發容量，但成本高昂：智能體“思考”時，你仍在為閒置的集羣付費。而單個實例或工作站雖便宜易用，但只能串行運行實驗，迭代速度極慢。Modal通過自定義無服務器運行時，提供了兩全其美的方案：既有單機的易用性和成本控制，又有大型集羣的突發容量。

Modal不僅解決了計算量的問題，還解決了計算類型的問題。調試CUDA錯誤需要交互式沙箱，讓智能體檢查狀態並快速迭代；12小時的訓練運行需要帶重試和檢查點的容錯批處理作業；超參數搜索則需要大量並行獨立作業。傳統雲基礎設施迫使你和智能體選擇一種模式並堅持使用。而Modal讓智能體自己決定何時需要多少計算以及何種計算，基礎設施隨之自動調整。

智能體可以編寫訓練腳本，添加@app.function(gpu='H100:8')裝飾器，然後通過modal run啓動。如果出現bug，可以調用modal.Sandbox.create(gpu='H100:8')創建交互式沙箱。無論是哪種方式，GPU都在幾秒內啓動，從單GPU擴展到數十或數百個GPU只需更改一個參數。工作完成後，資源自動釋放——不會在醒來時看到閒置集羣整夜運行帶來的意外賬單。

OpenAI的Parameter Golf挑戰要求將語言模型壓縮到≤16 MB，並在8×H100上10分鐘內完成推理，最小化每字節比特數（BPB）。智能體利用Modal的彈性資源調配，自動縮放：探索階段啓動數十個廉價單GPU運行，驗證階段並行5個8×H100實驗，調試階段串行執行，最後擴展到零。

第一階段：管道驗證。智能體啓動單GPU沙箱，訓練一個800萬參數模型一個週期，量化並評估。四次快速實驗用了約一小時，確認管道端到端工作，BPB為1.42。此階段未加速（因僅用少量GPU），但效率極高，相比40-GPU集羣節省大量成本（集羣閒置98%）。

第二階段：廣泛探索。管道正常工作後，智能體需要探索超參數空間：模型大小、學習率、序列長度、訓練時長。它啓動了約40個獨立單GPU沙箱——每個實驗不同超參數組合，通過一次modal.Sandbox.create(gpu='H100')調用完成。整個廣泛搜索在36分鐘內完成。隨後聚焦到23個單GPU實驗和4個更大膽的運行，BPB從1.40降至1.34。探索階段總計約14 GPU小時，68個實驗。相比工作站，峯值加速達1.25倍（40分鐘 vs 3小時），效率節省顯著。

第三階段：大規模驗證。午夜時分，智能體有了最佳架構的清晰圖像，需要全規模驗證。它從單GPU擴展到8×H100每個實驗——只需將gpu='H100'改為gpu='H100:8'。五個最佳配置並行運行，5×8×H100，共40 GPU，BPB從1.34降至1.14。相比工作站，加速5倍（4小時 vs 20小時），效率節省較小但現實中的集羣很少完美預配置。

第四階段：調試。智能體遇到瓶頸：量化步驟在CPU上耗時超過45分鐘，導致提交超時。它先嚐試增加超時（45分鐘、60分鐘、90分鐘、兩小時），但每次運行都超時，花費5.5小時和60 GPU小時。然後改變方法，將量化步驟重寫為GPU運行，下一次實驗總用時52分鐘（包括訓練和量化）。此階段加速不大（1.25倍），但效率節省顯著。

第五階段：優化和完成。管道正常運行後，智能體進入優化階段。先驗證（2個並行8×H100實驗，BPB 1.1420），然後展開5個並行8×H100實驗——40個GPU同時運行，測試不同架構、學習率調度、正則化和數據混合策略。BPB從1.1230降至1.1206，最後一輪4×8×H100顯示回報遞減（1.1220），智能體降至零並停止。此階段加速3.8倍，效率節省1.3倍。

Modal證明了研究和規模並非必然矛盾。彈性縮放讓智能體在需要時獲得爆發性計算，在不需要時自動釋放，從而同時實現高速迭代和成本效率。嘗試將Modal Skills放入您的智能體，探索AI研究的無限可能。