2026-04-14 08:00 UTC+8站内改写3 分钟阅读更新: 2026-06-27 08:25 UTC+8

自动缩放自动研究：在Modal上为您的智能体提供弹性GPU

Modal与Autoresearch集成，提供弹性GPU扩展，使AI智能体能够动态调配计算资源。在Parameter Golf挑战中，一个智能体在238个GPU小时内运行了113个实验，与单个工作站相比实现了5倍加速，同时仅使用了专用集群资源的一小部分。

来源Modal Blog

Modal与Autoresearch的结合为AI研究带来了全新的弹性计算能力。Karpathy-san发布的Autoresearch工具让AI能够加速自身的研究，但随之而来的一个老问题是：如何按需分配计算资源，既不浪费也不限制？Modal提供了完美的答案。通过一个简单的演示，Tony Chen利用Claude Code和Modal Skills，在Parameter Golf挑战中展示了这一能力：15小时内，智能体自主运行了113个实验，消耗238 GPU小时，核心训练运行速度比单个工作站快5倍，而资源消耗远低于专用集群。

研究负载的不可预测性是常态。一个研究者或智能体可能需要同时使用数十或数百个GPU进行超参数搜索，然后降至一个GPU调试问题，再扩展到多个8-GPU集群进行验证——所有这些都在同一工作会话中。传统的“始终开启”预留方案虽能提供突发容量，但成本高昂：智能体“思考”时，你仍在为闲置的集群付费。而单个实例或工作站虽便宜易用，但只能串行运行实验，迭代速度极慢。Modal通过自定义无服务器运行时，提供了两全其美的方案：既有单机的易用性和成本控制，又有大型集群的突发容量。

Modal不仅解决了计算量的问题，还解决了计算类型的问题。调试CUDA错误需要交互式沙箱，让智能体检查状态并快速迭代；12小时的训练运行需要带重试和检查点的容错批处理作业；超参数搜索则需要大量并行独立作业。传统云基础设施迫使你和智能体选择一种模式并坚持使用。而Modal让智能体自己决定何时需要多少计算以及何种计算，基础设施随之自动调整。

智能体可以编写训练脚本，添加@app.function(gpu='H100:8')装饰器，然后通过modal run启动。如果出现bug，可以调用modal.Sandbox.create(gpu='H100:8')创建交互式沙箱。无论是哪种方式，GPU都在几秒内启动，从单GPU扩展到数十或数百个GPU只需更改一个参数。工作完成后，资源自动释放——不会在醒来时看到闲置集群整夜运行带来的意外账单。

OpenAI的Parameter Golf挑战要求将语言模型压缩到≤16 MB，并在8×H100上10分钟内完成推理，最小化每字节比特数（BPB）。智能体利用Modal的弹性资源调配，自动缩放：探索阶段启动数十个廉价单GPU运行，验证阶段并行5个8×H100实验，调试阶段串行执行，最后扩展到零。

第一阶段：管道验证。智能体启动单GPU沙箱，训练一个800万参数模型一个周期，量化并评估。四次快速实验用了约一小时，确认管道端到端工作，BPB为1.42。此阶段未加速（因仅用少量GPU），但效率极高，相比40-GPU集群节省大量成本（集群闲置98%）。

第二阶段：广泛探索。管道正常工作后，智能体需要探索超参数空间：模型大小、学习率、序列长度、训练时长。它启动了约40个独立单GPU沙箱——每个实验不同超参数组合，通过一次modal.Sandbox.create(gpu='H100')调用完成。整个广泛搜索在36分钟内完成。随后聚焦到23个单GPU实验和4个更大胆的运行，BPB从1.40降至1.34。探索阶段总计约14 GPU小时，68个实验。相比工作站，峰值加速达1.25倍（40分钟 vs 3小时），效率节省显著。

第三阶段：大规模验证。午夜时分，智能体有了最佳架构的清晰图像，需要全规模验证。它从单GPU扩展到8×H100每个实验——只需将gpu='H100'改为gpu='H100:8'。五个最佳配置并行运行，5×8×H100，共40 GPU，BPB从1.34降至1.14。相比工作站，加速5倍（4小时 vs 20小时），效率节省较小但现实中的集群很少完美预配置。

第四阶段：调试。智能体遇到瓶颈：量化步骤在CPU上耗时超过45分钟，导致提交超时。它先尝试增加超时（45分钟、60分钟、90分钟、两小时），但每次运行都超时，花费5.5小时和60 GPU小时。然后改变方法，将量化步骤重写为GPU运行，下一次实验总用时52分钟（包括训练和量化）。此阶段加速不大（1.25倍），但效率节省显著。

第五阶段：优化和完成。管道正常运行后，智能体进入优化阶段。先验证（2个并行8×H100实验，BPB 1.1420），然后展开5个并行8×H100实验——40个GPU同时运行，测试不同架构、学习率调度、正则化和数据混合策略。BPB从1.1230降至1.1206，最后一轮4×8×H100显示回报递减（1.1220），智能体降至零并停止。此阶段加速3.8倍，效率节省1.3倍。

Modal证明了研究和规模并非必然矛盾。弹性缩放让智能体在需要时获得爆发性计算，在不需要时自动释放，从而同时实现高速迭代和成本效率。尝试将Modal Skills放入您的智能体，探索AI研究的无限可能。