2026-07-01 00:37 UTC+8站内改写1 分钟阅读更新: 2026-07-01 00:57 UTC+8

Outpost VFX 如何利用 AWS 加速视觉特效的 AI 模型训练

Outpost VFX 通过与 AWS 合作，利用多 GPU 架构将面部替换模型的训练速度提升了 8 倍，交付时间从 1-2 周缩短至 2 天。

来源AWS Machine Learning Blog作者: Alex Newton

视觉特效（VFX）领域的 AI 模型训练通常需要数周时间，这给制作进度带来严重瓶颈。对于在英国、加拿大和印度设有工作室、专注于高端影视内容的 Outpost VFX 来说，每一天的延误都会影响客户交付和项目计划。

传统的人脸替换工作流程需要超过 5 天的合成或专门的 beauty 和去衰老处理，才能获得导演批准的初始版本。虽然有效，但这种方法在迭代审批的初期阶段就造成了瓶颈，而这一阶段对制作进度最为关键。为了突破单 GPU 的限制，Outpost VFX 与 AWS 生成式 AI 创新中心合作，对其 AI 学习算法进行了现代化改造。

解决方案是将现有的人脸替换模型代码调整为支持多 GPU 分布式训练。团队使用了 AWS 多 GPU Amazon EC2 P5 实例，这些实例配备 NVIDIA H100 GPU，通过 NVLink 互连提供高带宽梯度同步。与之前使用的本地 RTX 3090 相比，H100 拥有 14,592 个 CUDA 核心和 80GB HBM3 内存，性能大幅提升。在为期 6 周的咨询期内，AWS 科学家将模型代码转换为使用 PyTorch 分布式数据并行（DDP）策略，将模型权重复制到每个 GPU，从而在每次训练批处理中处理更多图像。

测试结果表明，与单 GPU 基线相比，人脸替换模型的学习速度提升了 8 倍。这意味着迭代周期显著加快，导演能更快批准早期版本。更重要的是，客户初始审查的 v001 交付现在只需 2 天，而之前需要 1-2 周。

“我们现在能够更快地迭代，这得益于并行化的工作流程和同时利用多个顶级 GPU 的能力，”Outpost VFX 的 CTO Tim Chauncey 解释道。“迭代速度对 VFX 工作至关重要，这种架构为未来的发展提供了更强大、可扩展的能力。”

未来，Outpost VFX 计划通过使用更高分辨率的图像和更新一代的 P5 实例进一步提升输出质量。该团队还看到了 Amazon SageMaker AI 等服务的潜力，以进一步简化模型的开发和部署。这种并行化工作流程架构，包括从本地消费级 NVIDIA GPU 向企业级 NVIDIA GPU 的迁移，为全球工作室的未来 AI 工具开发和扩展奠定了基础。