AI News HubLIVE
站内改写3 分钟阅读

自动缩放自动研究:在Modal上为您的智能体提供弹性GPU

Modal与Autoresearch集成,提供弹性GPU扩展,使AI智能体能够动态调配计算资源。在Parameter Golf挑战中,一个智能体在238个GPU小时内运行了113个实验,与单个工作站相比实现了5倍加速,同时仅使用了专用集群资源的一小部分。

Modal与Autoresearch的结合为AI研究带来了全新的弹性计算能力。Karpathy-san发布的Autoresearch工具让AI能够加速自身的研究,但随之而来的一个老问题是:如何按需分配计算资源,既不浪费也不限制?Modal提供了完美的答案。通过一个简单的演示,Tony Chen利用Claude Code和Modal Skills,在Parameter Golf挑战中展示了这一能力:15小时内,智能体自主运行了113个实验,消耗238 GPU小时,核心训练运行速度比单个工作站快5倍,而资源消耗远低于专用集群。

研究负载的不可预测性是常态。一个研究者或智能体可能需要同时使用数十或数百个GPU进行超参数搜索,然后降至一个GPU调试问题,再扩展到多个8-GPU集群进行验证——所有这些都在同一工作会话中。传统的“始终开启”预留方案虽能提供突发容量,但成本高昂:智能体“思考”时,你仍在为闲置的集群付费。而单个实例或工作站虽便宜易用,但只能串行运行实验,迭代速度极慢。Modal通过自定义无服务器运行时,提供了两全其美的方案:既有单机的易用性和成本控制,又有大型集群的突发容量。

Modal不仅解决了计算量的问题,还解决了计算类型的问题。调试CUDA错误需要交互式沙箱,让智能体检查状态并快速迭代;12小时的训练运行需要带重试和检查点的容错批处理作业;超参数搜索则需要大量并行独立作业。传统云基础设施迫使你和智能体选择一种模式并坚持使用。而Modal让智能体自己决定何时需要多少计算以及何种计算,基础设施随之自动调整。

智能体可以编写训练脚本,添加@app.function(gpu='H100:8')装饰器,然后通过modal run启动。如果出现bug,可以调用modal.Sandbox.create(gpu='H100:8')创建交互式沙箱。无论是哪种方式,GPU都在几秒内启动,从单GPU扩展到数十或数百个GPU只需更改一个参数。工作完成后,资源自动释放——不会在醒来时看到闲置集群整夜运行带来的意外账单。

OpenAI的Parameter Golf挑战要求将语言模型压缩到≤16 MB,并在8×H100上10分钟内完成推理,最小化每字节比特数(BPB)。智能体利用Modal的弹性资源调配,自动缩放:探索阶段启动数十个廉价单GPU运行,验证阶段并行5个8×H100实验,调试阶段串行执行,最后扩展到零。

第一阶段:管道验证。智能体启动单GPU沙箱,训练一个800万参数模型一个周期,量化并评估。四次快速实验用了约一小时,确认管道端到端工作,BPB为1.42。此阶段未加速(因仅用少量GPU),但效率极高,相比40-GPU集群节省大量成本(集群闲置98%)。

第二阶段:广泛探索。管道正常工作后,智能体需要探索超参数空间:模型大小、学习率、序列长度、训练时长。它启动了约40个独立单GPU沙箱——每个实验不同超参数组合,通过一次modal.Sandbox.create(gpu='H100')调用完成。整个广泛搜索在36分钟内完成。随后聚焦到23个单GPU实验和4个更大胆的运行,BPB从1.40降至1.34。探索阶段总计约14 GPU小时,68个实验。相比工作站,峰值加速达1.25倍(40分钟 vs 3小时),效率节省显著。

第三阶段:大规模验证。午夜时分,智能体有了最佳架构的清晰图像,需要全规模验证。它从单GPU扩展到8×H100每个实验——只需将gpu='H100'改为gpu='H100:8'。五个最佳配置并行运行,5×8×H100,共40 GPU,BPB从1.34降至1.14。相比工作站,加速5倍(4小时 vs 20小时),效率节省较小但现实中的集群很少完美预配置。

第四阶段:调试。智能体遇到瓶颈:量化步骤在CPU上耗时超过45分钟,导致提交超时。它先尝试增加超时(45分钟、60分钟、90分钟、两小时),但每次运行都超时,花费5.5小时和60 GPU小时。然后改变方法,将量化步骤重写为GPU运行,下一次实验总用时52分钟(包括训练和量化)。此阶段加速不大(1.25倍),但效率节省显著。

第五阶段:优化和完成。管道正常运行后,智能体进入优化阶段。先验证(2个并行8×H100实验,BPB 1.1420),然后展开5个并行8×H100实验——40个GPU同时运行,测试不同架构、学习率调度、正则化和数据混合策略。BPB从1.1230降至1.1206,最后一轮4×8×H100显示回报递减(1.1220),智能体降至零并停止。此阶段加速3.8倍,效率节省1.3倍。

Modal证明了研究和规模并非必然矛盾。弹性缩放让智能体在需要时获得爆发性计算,在不需要时自动释放,从而同时实现高速迭代和成本效率。尝试将Modal Skills放入您的智能体,探索AI研究的无限可能。