2026-05-27 18:01 UTC+9サイト内リライト3 分で読了更新: 2026-06-30 22:03 UTC+9

5秒で3Dシーン編集、北大・香港中文・上海AIラボがVGGT-Editを開発、120倍の高速化を実現

北京大学、香港中文大学、上海AIラボ、NTUの研究チームが、約5秒でシーン編集を実行できるネイティブ3D編集フレームワークVGGT-Editを発表。従来手法と比べて最大120倍の高速化を達成し、意味的一貫性、多視点安定性、推論速度で既存手法を上回る。

ソース量子位著者: 听雨

記事インテリジェンス

エンジニア上級

要点

VGGT-Editは初のネイティブ3D編集フレームワークで、3D空間で直接編集を行い、2D手法による多視点の不整合を排除。
残差場予測により、背景を安定させながら局所的な変更のみをモデル化し、高速で高品質な編集を実現。
深度同期テキスト注入により、テキストの意味と3D空間特徴を継続的に整合させ、編集精度を向上。
約10万サンプルからなる新しいデータセットDeltaSceneを構築し、3D編集タスクの訓練と評価に使用。

重要な理由

このニュースが重要なのは、VGGT-Editは初のネイティブ3D編集フレームワークで、3D空間で直接編集を行い、2D手法による多視点の不整合を排除ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

NeRF、3D Gaussian Splatting、そしてVGGTやπ³のようなフィードフォワード型3D再構成モデルの進歩により、わずか数枚の画像から数秒で完全な3Dシーンを再構築できるようになりました。しかし、重要な機能が欠けていました。それは3Dシーンの編集です。現在のモデルは3D世界を「見る」ことはできても、「修正する」ことはほとんどできません。例えば、部屋を再構築できても、椅子を窓際に移動する、特定の椅子を削除する、グレーの革張りソファを白いふわふわのソファに変更するといった指示をシステムに与えるのは困難です。既存の手法では、視点によって物体が消えたり現れたり、背景が予期せず変形するなど、不整合が頻繁に発生します。

この課題に取り組むため、北京大学、香港中文大学、上海AIラボ、南洋理工大学（NTU）の研究チームは、ネイティブ3D編集フレームワーク「VGGT-Edit」を提案しました。基本コンセプトはシンプルです。2Dに戻らず、3D空間で直接編集を行うというものです。このフレームワークはVGGTライクなフィードフォワード再構成モデルをベースにしており、その高速で効率的な3D表現を継承しています。チームはシーン全体を再生成するのではなく、残差場予測と呼ばれる巧妙なメカニズムを導入しました。モデルは元の安定した3D構造を保持し、椅子の移動、素材の変更、物体の削除、家具の追加など、変更が必要な箇所のみを学習します。新しいシーンは元のシーンに局所的な残差変化を加えたものとして計算され、変更のない背景領域は非常に安定します。

重要な革新点は深度同期テキスト注入です。単にテキスト命令を入力するだけでは、モデルは何を変更すべきかは分かっても、どこを変更すべきかが分からない場合がよくあります。VGGT-Editは複数の深度層にわたってテキストの意味と3D空間特徴を継続的に融合し、モデルが編集すべき領域、目標の変更内容、空間的な位置を常に把握できるようにします。さらに、視点重要度重み付けメカニズムにより、どの視点がより信頼できるかを自動的に判断し、多視点の結果をより一貫性のあるものにします。

フレームワークには、3D編集タスクに特化した専用の編集ヘッドも含まれています。元の再構成ヘッドがシーンの復元に重点を置くのに対し、編集ブランチは3D表現空間内で局所的な変化を直接予測します。この設計により、変更すべきでない領域、編集が必要な領域、編集後に多視点一貫性を維持する方法を学習します。シーン全体を再生成するよりも、このアプローチはより安定しており効率的です。

VGGT-Editの訓練のために、チームはDeltaSceneと呼ばれる新しいデータセットを作成しました。リビングルーム、オフィス、商業スペースなど、さまざまなシーンをカバーする約10万サンプルを含みます。データ生成パイプラインは高度に自動化されており、Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Maxなどのツールを活用して、編集命令の生成、ターゲットの識別、多視点編集、3D一貫性フィルタリングを実行します。これにより、モデルは画像の変化だけでなく、編集が異なる視点間で空間的に一貫していることを学習します。

DeltaSceneベンチマークでの結果は、VGGT-Editが意味的一貫性、多視点安定性、推論速度のすべてで既存手法を上回ることを示しています。単一の編集を約5秒で完了し、従来の最適化ベースの手法と比較して最大120倍の高速化を実現します。これにより、3D編集がリアルタイムインタラクションに近づき、ロボット工学、デジタルツイン、AR/VRアプリケーションにとって重要です。

興味深い実験として、訓練データにない指示「中央の椅子を時計回りに90度回転させる」が与えられました。モデルは編集を成功させ、VGGT-Editが固定テンプレートを超えて、テキストの意味を3D空間の変化にマッピングすることを学習していることを示しています。この柔軟で安定したリアルタイムの3D世界の修正能力は、インタラクティブな空間知能に向けた重要な一歩です。

論文: https://arxiv.org/abs/2605.15186