2026-05-27 17:01 UTC+8站內改寫5 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

5秒完成3D場景編輯，北大&港中文&上海AI Lab搞出VGGT-Edit，120倍加速太炸了

來自北京大學、香港中文大學、上海AI Lab等機構的研究團隊提出了VGGT-Edit，一種原生3D編輯框架，能夠在約5秒內完成場景編輯，相比傳統方法實現高達120倍的加速，並在語義一致性、多視角穩定性和推理速度上超越現有方法。

來源量子位作者: 听雨

5秒完成3D場景編輯，北大&港中文&上海AI Lab搞出VGGT-Edit，120倍加速太炸了 – 量子位

聽雨 2026-05-27 17:01:54

來源：量子位

不再繞回2D

VGGT-Edit團隊投稿

量子位 | 公眾號 QbitAI

3D世界“會看”了，但還不會“改”。

從NeRF到83D Gaussian Splatting，再到VGGT、π³這類前饋式3D重建模型，整個行業的進展速度明顯加快——只需幾張圖片，就能在幾秒內重建完整3D場景。

但問題也恰恰出在這裡。這些模型雖然已經能理解三維世界，卻還不會修改三維世界。你可以讓它重建一個房間，卻很難真正告訴它：

把椅子移到窗邊，刪除中間那張椅子，把灰色皮沙發改成白色長毛沙發。

更麻煩的是，一旦涉及複雜編輯，現有方法往往迌速崩採——某些角度裡椅子消失了，換個視角椅子又重新出現；明明沒改的背景，卻跟著一起變形。

為應對這一挑戰，來自北京大學、香港中文大學、上海AI Lab、NTU等機構的研究團隊，提出了一套原生3D編輯框架：VGGT-Edit。

核心思路只有一句話——

不再繞回2D，而是直接在3D空間裡完成編輯。

在DeltaScene測試集上，VGGT-Edit在語義一致性、多視角穩定性、推理速度三個維度均超過現有方法，單次編輯僅需約5秒，最高實現120倍加速。

問題其實一直出在在2D

目前大多數編3D的方法，本質上仍然是“2D思維”——先把場景拆成多弤2D圖片，逐張編輯，再重新拼回3D。

但由於每個視角都是獨立處理的，所以很容易出現：

一個視角里椅子已經刪掉了；

換個角度椅子又重新出現；

背景區域跟著一起漂移；

物體邊緣出現重影和閃爍。

△3D編輯方法的比較

很多結果看起來更像“在不同角度硬P出來的圖”，而不是真正穩定的3D空間。

對於機器人、AR/VR、空間智慧這些方向來說，這幾乎是致命問題——這些場景真正需要的，不是“某一個角度看起來對”，而是整個3D世界始終穩定一致。

原生3D編輯，開始從概念走向可用

VGGT-Edit的核心思路非常直接：既然問題來自2D，那就不要再繞回2D。

整個框架建立在VGGT-Like前饋式重建模型之上，繼承了其快速、高效的3D表示能力。但有意思的是，團隊並沒有選擇重新生成整個場景，而是提出了一種非常巧妙的機制：

殘差場預測（Residual Field Prediction）。

簡單理解就是：模型先保留原始場景穩定的3D結構，然後只學習“哪裡需要變化”，例如：

椅子往右移動；

沙發材質發生變化；

刪除某個物體；

新增一個傢俱。

這些變化，都被表示成了：新場景 = 原場景 + 區域性殘差變化

這個設計有個非常重要的好處——因為大部分割槽域本來就不需要變化，所以模型不用重新“生成整個世界”，只需修改區域性，結果就是沒改動的背景區域會非常穩定。

這也是VGGT-Edit和很多現有方法最明顯的區別之一。

文本語義，第一次真正開始“對齊”3D空間

研究團隊發現，如果只是簡單把一句文本輸入模型，很容易出現一種情況——模型知道“你想改什麼”，但不知道“該改哪裡”。

為了解決這個問題，VGGT-Edit設計了一套關鍵機制：

深度同步文本注入（Depth-Synchronized Text Injection）

本質上可以理解成讓文本語義和3D空間特徵，在同一個深度層級裡持續同步。

傳統方法通常只在前面注入一次文本資訊，但VGGT-Edit會在多個關鍵層持續融合文本語義，這樣模型在整個3D生成過程中，始終知道：

當前應該修改哪個區域；

修改目標是什麼；

空間位置在哪裡。

與此同時，團隊還專門設計了一套“視角重要性加權”——因為並不是所有視角都同樣可靠，有些角度可能被遁擋，有些視角只能看到半個物體。

VGGT-Edit會自動判斷哪個視角更值得信任，最終讓多視角編輯結果更加穩定。

一個真正面向“3D編輯”的編輯頭

除了整體框架之外，VGGT-Edit還有一個非常關鍵的部分——專門面向3D編輯任務設計的編輯頭。

研究團隊發現，對於VGGT-Like模型來說，原本的重建Head更關注“如何恢復場景”，但3D編輯真正需要解決的問題是：如何在保持整體穩定的情況下，只修改區域性區域。

因此，VGGT-Edit額外設計了一套編輯分支，專門預測場景中的區域性變化。

這個編輯Head會直接作用於3D表示空間，並輸出對應的殘差場變化。本質上，它學習的是：

哪些區域應該保持不變；

哪些區域需要發生編輯；

編輯後如何保持多視角一致。

相比直接重新生成整個場景，這種方式更加穩定，也更加高效——這也是讓VGGT-Like前饋重建模型具有編輯能力的關鍵一步。

一個10萬規模的資料集，專門訓練“3D編輯”

為了訓練VGGT-Edit，團隊專門構建了一個新3D編輯資料集DeltaScene，規模接近10萬組，覆蓋客廳、辦公室、住宅、商業空間等多種場景。

△DeltaScene資料集概述

更重要的是，整個資料生成流程高度自動化。

團隊透過利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max，自動完成編輯指令生成、目標識別、多視角編輯、3D一致性過濾，最終得到真正滿足“多視角幾何一致”的訓練資料。

△DeltaScene資料構造流程

對於原生3D編輯來說，這一步非常關鍵——模型真正需要學習的，不只是“影像變化”，而是同一個編輯，在不同視角下如何始終保持空間一致。

3D編輯，第一次開始接近即時互動

從結果來看，這條路線確實有效。

在DeltaScene測試集上，VGGT-Edit在語義一致性、多視角穩定性、推理速度三個維度都超過了現有方法。

尤其是在新增傢俱、調整位置、修改材質這些複雜任務中，很多傳統方法仍然會出現明顯的“貼圖感”和幾何漂移，但VGGT-Edit生成的結果，會明顯更像一個真實穩定的3D空間。

△不同3D編輯任務的定性比較

更關鍵的是速度——論文中，VGGT-Edit單次編輯只需約5秒，相比很多需要長時間最佳化的傳統方法，最高可實現120倍加速。

這意味著編3D第一次真正開始接近即時互動。

對於機器人、數字孿生、AR/VR等方向來說，這種變化非常重要——只有當編輯速度足夠快，3D世界才真正可能變成“可互動”的世界。

△在DeltaScene資料集上的定量結果

模型開始真正理解“空間變化”

論文裡還有一個非常有意思的實驗。研究人員輸入了一條訓練中從未出現過的指令——“將中間椅子順時針旋轉90度。”

結果模型依然成功完成了編輯。

△對未見過的指令進行泛化

這說明VGGT-Edit學到的，並不只是固定模板，它真正開始理解文本語義如何對映到3D空間變化。

而這件事，可能比“會生成3D”本身更重要。因為對於空間智慧來說，未來真正關鍵的能力，也許不是“生成一個世界”，而是能否像人一樣，自由、穩定、即時地修改這個世界。

VGGT-Edit，正在把這件事往前推進一步。

論文連結：https://arxiv.org/abs/2605.15186

聽雨

Codex自我蒸餾玩法火了！OpenAI員工親授：複製貼上就能讓AI消滅重複勞動2026-05-27

OpenAI大神教你如何榨乾Codex2026-05-23

520當天400萬AI人，都在量子位聽這近20場演講&對談｜第四屆中國AIGC產業峰會2026-05-21

DeepSeek V4價格打骨折，寧王京東網易搶著入場，梁文鋒：目標是AGI2026-05-23