Velox:4Dジオメトリと外観の表現学習
Veloxは、非構造化動的点群から4Dオブジェクトの潜在表現を学習するフレームワークです。時空間カラーポイントクラウドを動的形状トークンに圧縮し、4Dサーフェスデコーダで幾何、ガウシアンデコーダで外観を再構築します。動画から4D生成、3D追跡、布シミュレーション等のタスクで優れた性能を示しました。
Apple機械学習研究チームは2026年5月、非構造化された動的カラーポイントクラウドから4Dジオメトリと外観のコンパクトな表現を学習するフレームワーク「Velox」を発表しました。Veloxの中核はエンコーダであり、時空間カラーポイントクラウドを一連の動的形状トークンに圧縮します。これらのトークンは二つの相補的なデコーダによって監督されます。4Dサーフェスデコーダは時間変化する表面分布をモデル化し、正確な幾何情報を捕捉します。一方、ガウシアンデコーダはトークンを3Dガウシアンにマッピングし、外観の学習を支援します。この設計により、Veloxの表現は記述的であり、物体の幾何と外観を忠実に捉えると同時に、圧縮性に優れ、下流タスクの効率化に寄与します。また、入力として非構造化動的点群のみを必要とするため、アクセスしやすくなっています。研究チームは表現の有用性を実証するため、三つの下流タスク(動画から4D生成、3D追跡、画像からの4D生成による布シミュレーション)で評価し、いずれの設定でも強力なパフォーマンスを観測しました。本成果はトロント大学とAppleの研究者による共同研究であり、4Dシーンの理解と生成に新たな効率的な手段を提供します。