AI News HubLIVE
站內改寫2 分鐘閱讀

Outpost VFX 如何利用 AWS 加速視覺特效的 AI 模型訓練

Outpost VFX 透過與 AWS 合作,利用多 GPU 架構將面部替換模型的訓練速度提升了 8 倍,交付時間從 1-2 周縮短至 2 天。

來源AWS Machine Learning Blog作者: Alex Newton

視覺特效(VFX)領域的 AI 模型訓練通常需要數週時間,這給製作進度帶來嚴重瓶頸。對於在英國、加拿大和印度設有工作室、專注於高階影視內容的 Outpost VFX 來說,每一天的延誤都會影響客戶交付和專案計劃。

傳統的人臉替換工作流程需要超過 5 天的合成或專門的 beauty 和去衰老處理,才能獲得導演批准的初始版本。雖然有效,但這種方法在迭代審批的初期階段就造成了瓶頸,而這一階段對製作進度最為關鍵。為了突破單 GPU 的限制,Outpost VFX 與 AWS 生成式 AI 創新中心合作,對其 AI 學習演算法進行了現代化改造。

解決方案是將現有的人臉替換模型程式碼調整為支援多 GPU 分散式訓練。團隊使用了 AWS 多 GPU Amazon EC2 P5 例項,這些例項配備 NVIDIA H100 GPU,透過 NVLink 互連提供高頻寬梯度同步。與之前使用的本地 RTX 3090 相比,H100 擁有 14,592 個 CUDA 核心和 80GB HBM3 記憶體,效能大幅提升。在為期 6 周的諮詢期內,AWS 科學家將模型程式碼轉換為使用 PyTorch 分散式資料並行(DDP)策略,將模型權重複制到每個 GPU,從而在每次訓練批處理中處理更多影像。

測試結果表明,與單 GPU 基線相比,人臉替換模型的學習速度提升了 8 倍。這意味著迭代週期顯著加快,導演能更快批准早期版本。更重要的是,客戶初始審查的 v001 交付現在只需 2 天,而之前需要 1-2 周。

“我們現在能夠更快地迭代,這得益於並行化的工作流程和同時利用多個頂級 GPU 的能力,”Outpost VFX 的 CTO Tim Chauncey 解釋道。“迭代速度對 VFX 工作至關重要,這種架構為未來的發展提供了更強大、可擴充套件的能力。”

未來,Outpost VFX 計劃透過使用更高解析度的影像和更新一代的 P5 例項進一步提升輸出質量。該團隊還看到了 Amazon SageMaker AI 等服務的潛力,以進一步簡化模型的開發和部署。這種並行化工作流程架構,包括從本地消費級 NVIDIA GPU 向企業級 NVIDIA GPU 的遷移,為全球工作室的未來 AI 工具開發和擴充套件奠定了基礎。