Outpost VFX 如何利用 AWS 加速视觉特效的 AI 模型训练
Outpost VFX 通过与 AWS 合作,利用多 GPU 架构将面部替换模型的训练速度提升了 8 倍,交付时间从 1-2 周缩短至 2 天。
视觉特效(VFX)领域的 AI 模型训练通常需要数周时间,这给制作进度带来严重瓶颈。对于在英国、加拿大和印度设有工作室、专注于高端影视内容的 Outpost VFX 来说,每一天的延误都会影响客户交付和项目计划。
传统的人脸替换工作流程需要超过 5 天的合成或专门的 beauty 和去衰老处理,才能获得导演批准的初始版本。虽然有效,但这种方法在迭代审批的初期阶段就造成了瓶颈,而这一阶段对制作进度最为关键。为了突破单 GPU 的限制,Outpost VFX 与 AWS 生成式 AI 创新中心合作,对其 AI 学习算法进行了现代化改造。
解决方案是将现有的人脸替换模型代码调整为支持多 GPU 分布式训练。团队使用了 AWS 多 GPU Amazon EC2 P5 实例,这些实例配备 NVIDIA H100 GPU,通过 NVLink 互连提供高带宽梯度同步。与之前使用的本地 RTX 3090 相比,H100 拥有 14,592 个 CUDA 核心和 80GB HBM3 内存,性能大幅提升。在为期 6 周的咨询期内,AWS 科学家将模型代码转换为使用 PyTorch 分布式数据并行(DDP)策略,将模型权重复制到每个 GPU,从而在每次训练批处理中处理更多图像。
测试结果表明,与单 GPU 基线相比,人脸替换模型的学习速度提升了 8 倍。这意味着迭代周期显著加快,导演能更快批准早期版本。更重要的是,客户初始审查的 v001 交付现在只需 2 天,而之前需要 1-2 周。
“我们现在能够更快地迭代,这得益于并行化的工作流程和同时利用多个顶级 GPU 的能力,”Outpost VFX 的 CTO Tim Chauncey 解释道。“迭代速度对 VFX 工作至关重要,这种架构为未来的发展提供了更强大、可扩展的能力。”
未来,Outpost VFX 计划通过使用更高分辨率的图像和更新一代的 P5 实例进一步提升输出质量。该团队还看到了 Amazon SageMaker AI 等服务的潜力,以进一步简化模型的开发和部署。这种并行化工作流程架构,包括从本地消费级 NVIDIA GPU 向企业级 NVIDIA GPU 的迁移,为全球工作室的未来 AI 工具开发和扩展奠定了基础。