Outpost VFXがAWSを活用してVFX向けAIモデルトレーニングを高速化する方法
Outpost VFXはAWSとの協業により、マルチGPUアーキテクチャを採用して顔置換モデルのトレーニング速度を8倍に向上し、納品時間を1〜2週間から2日に短縮しました。
視覚効果(VFX)におけるAIモデルのトレーニングは通常数週間を要し、制作スケジュールに深刻なボトルネックをもたらします。英国、カナダ、インドにスタジオを持ち、ハイエンドの映画やエピソードコンテンツを手がけるOutpost VFXにとって、1日の遅れは顧客への納品とプロジェクト計画に影響を及ぼします。
従来の顔置換ワークフローでは、初回のディレクター承認を得るまでに5日以上の合成作業や専門的なビューティ/デエイジング処理が必要でした。効果的な手法ではありますが、反復承認プロセスの初期段階でボトルネックを生み出し、制作スケジュールに影響を与えていました。シングルGPUの制約を打破するため、Outpost VFXはAWS Generative AI Innovation Centerと協力し、AI学習アルゴリズムを最新化しました。
解決策は、既存の顔置換モデルコードをマルチGPU分散トレーニングに対応させることでした。チームはAWSマルチGPU Amazon EC2 P5インスタンスを採用。これらのインスタンスにはNVIDIA H100 GPUが搭載され、NVLinkインターコネクトにより高速な勾配同期を実現します。従来のローカルRTX 3090と比較して、H100は14,592のCUDAコアと80GBのHBM3メモリを備え、大幅な性能向上を実現しました。6週間のコンサルティング期間中に、AWSの科学者がモデルコードをPyTorch分散データ並列(DDP)戦略に変換し、各GPUにモデル重みをコピーしてトレーニングバッチあたりの処理画像数を増加させました。
ベンチマークテストの結果、顔置換モデルの学習速度はシングルGPUベースラインと比較して8倍に向上しました。この性能向上により反復サイクルが大幅に短縮され、ディレクターの承認が迅速化されました。最も重要なのは、クライアント向け初回バージョン(v001)の納品が従来の1〜2週間から2日間に短縮されたことです。
「並列化されたワークフローと複数のトップエンドGPUを同時に活用できるようになったことで、反復速度が大幅に向上しました」とOutpost VFXのCTOであるTim Chauncey氏は述べています。「反復速度はVFX作業にとって極めて重要であり、このアーキテクチャは将来の開発に向けてより堅牢でスケーラブルな機能を提供します。」
今後、Outpost VFXはより高解像度の画像と新世代のP5インスタンスを使用して出力品質をさらに向上させる予定です。また、Amazon SageMaker AIなどのサービスを活用してモデルの開発とデプロイをさらに効率化する可能性も検討しています。この並列化ワークフローアーキテクチャは、ローカルコンシューマー向けNVIDIA GPUからエンタープライズNVIDIA GPUへの移行を含め、将来のAIツール開発とグローバルスタジオ全体でのスケーリングの基盤を提供します。