5秒完成3D場景編輯,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了
來自北京大學、香港中文大學、上海AI Lab等機構的研究團隊提出了VGGT-Edit,一種原生3D編輯框架,能夠在約5秒內完成場景編輯,相比傳統方法實現高達120倍的加速,並在語義一致性、多視角穩定性和推理速度上超越現有方法。
文章情報
要點
- VGGT-Edit是首個原生3D編輯框架,直接在3D空間中進行編輯,避免2D方法帶來的多視角不一致問題。
- 透過殘差場預測,模型只修改區域性變化,保持背景穩定,實現快速、高質量的編輯。
- 深度同步文本注入機制讓文本語義與3D空間特徵持續對齊,提升編輯準確性。
- 團隊構建了10萬規模的DeltaScene資料集,用於訓練和評估3D編輯任務。
為什麼重要
這條新聞值得關注,因為VGGT-Edit是首個原生3D編輯框架,直接在3D空間中進行編輯,避免2D方法帶來的多視角不一致問題。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
5秒完成3D場景編輯,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了 – 量子位
5秒完成3D場景編輯,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了
聽雨 2026-05-27 17:01:54
來源:量子位
不再繞回2D
VGGT-Edit團隊 投稿
量子位 | 公眾號 QbitAI
3D世界“會看”了,但還不會“改”。
從NeRF到83D Gaussian Splatting,再到VGGT、π³這類前饋式3D重建模型,整個行業的進展速度明顯加快——只需幾張圖片,就能在幾秒內重建完整3D場景。
但問題也恰恰出在這裡。這些模型雖然已經能理解三維世界,卻還不會修改三維世界。你可以讓它重建一個房間,卻很難真正告訴它:
把椅子移到窗邊,刪除中間那張椅子,把灰色皮沙發改成白色長毛沙發。
更麻煩的是,一旦涉及複雜編輯,現有方法往往迌速崩採——某些角度裡椅子消失了,換個視角椅子又重新出現;明明沒改的背景,卻跟著一起變形。
為應對這一挑戰,來自北京大學、香港中文大學、上海AI Lab、NTU等機構的研究團隊,提出了一套原生3D編輯框架:VGGT-Edit。
核心思路只有一句話——
不再繞回2D,而是直接在3D空間裡完成編輯。
在DeltaScene測試集上,VGGT-Edit在語義一致性、多視角穩定性、推理速度三個維度均超過現有方法,單次編輯僅需約5秒,最高實現120倍加速。
問題其實一直出在在2D
目前大多數編3D的方法,本質上仍然是“2D思維”——先把場景拆成多弤2D圖片,逐張編輯,再重新拼回3D。
但由於每個視角都是獨立處理的,所以很容易出現:
一個視角里椅子已經刪掉了;
換個角度椅子又重新出現;
背景區域跟著一起漂移;
物體邊緣出現重影和閃爍。
△3D編輯方法的比較
很多結果看起來更像“在不同角度硬P出來的圖”,而不是真正穩定的3D空間。
對於機器人、AR/VR、空間智慧這些方向來說,這幾乎是致命問題——這些場景真正需要的,不是“某一個角度看起來對”,而是整個3D世界始終穩定一致。
原生3D編輯,開始從概念走向可用
VGGT-Edit的核心思路非常直接:既然問題來自2D,那就不要再繞回2D。
整個框架建立在VGGT-Like前饋式重建模型之上,繼承了其快速、高效的3D表示能力。但有意思的是,團隊並沒有選擇重新生成整個場景,而是提出了一種非常巧妙的機制:
殘差場預測(Residual Field Prediction)。
簡單理解就是:模型先保留原始場景穩定的3D結構,然後只學習“哪裡需要變化”,例如:
椅子往右移動;
沙發材質發生變化;
刪除某個物體;
新增一個傢俱。
這些變化,都被表示成了:新場景 = 原場景 + 區域性殘差變化
這個設計有個非常重要的好處——因為大部分割槽域本來就不需要變化,所以模型不用重新“生成整個世界”,只需修改區域性,結果就是沒改動的背景區域會非常穩定。
這也是VGGT-Edit和很多現有方法最明顯的區別之一。
文本語義,第一次真正開始“對齊”3D空間
研究團隊發現,如果只是簡單把一句文本輸入模型,很容易出現一種情況——模型知道“你想改什麼”,但不知道“該改哪裡”。
為了解決這個問題,VGGT-Edit設計了一套關鍵機制:
深度同步文本注入(Depth-Synchronized Text Injection)
本質上可以理解成讓文本語義和3D空間特徵,在同一個深度層級裡持續同步。
傳統方法通常只在前面注入一次文本資訊,但VGGT-Edit會在多個關鍵層持續融合文本語義,這樣模型在整個3D生成過程中,始終知道:
當前應該修改哪個區域;
修改目標是什麼;
空間位置在哪裡。
與此同時,團隊還專門設計了一套“視角重要性加權”——因為並不是所有視角都同樣可靠,有些角度可能被遁擋,有些視角只能看到半個物體。
VGGT-Edit會自動判斷哪個視角更值得信任,最終讓多視角編輯結果更加穩定。
一個真正面向“3D編輯”的編輯頭
除了整體框架之外,VGGT-Edit還有一個非常關鍵的部分——專門面向3D編輯任務設計的編輯頭。
研究團隊發現,對於VGGT-Like模型來說,原本的重建Head更關注“如何恢復場景”,但3D編輯真正需要解決的問題是:如何在保持整體穩定的情況下,只修改區域性區域。
因此,VGGT-Edit額外設計了一套編輯分支,專門預測場景中的區域性變化。
這個編輯Head會直接作用於3D表示空間,並輸出對應的殘差場變化。本質上,它學習的是:
哪些區域應該保持不變;
哪些區域需要發生編輯;
編輯後如何保持多視角一致。
相比直接重新生成整個場景,這種方式更加穩定,也更加高效——這也是讓VGGT-Like前饋重建模型具有編輯能力的關鍵一步。
一個10萬規模的資料集,專門訓練“3D編輯”
為了訓練VGGT-Edit,團隊專門構建了一個新3D編輯資料集DeltaScene,規模接近10萬組,覆蓋客廳、辦公室、住宅、商業空間等多種場景。
△DeltaScene資料集概述
更重要的是,整個資料生成流程高度自動化。
團隊透過利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max,自動完成編輯指令生成、目標識別、多視角編輯、3D一致性過濾,最終得到真正滿足“多視角幾何一致”的訓練資料。
△DeltaScene資料構造流程
對於原生3D編輯來說,這一步非常關鍵——模型真正需要學習的,不只是“影像變化”,而是同一個編輯,在不同視角下如何始終保持空間一致。
3D編輯,第一次開始接近即時互動
從結果來看,這條路線確實有效。
在DeltaScene測試集上,VGGT-Edit在語義一致性、多視角穩定性、推理速度三個維度都超過了現有方法。
尤其是在新增傢俱、調整位置、修改材質這些複雜任務中,很多傳統方法仍然會出現明顯的“貼圖感”和幾何漂移,但VGGT-Edit生成的結果,會明顯更像一個真實穩定的3D空間。
△不同3D編輯任務的定性比較
更關鍵的是速度——論文中,VGGT-Edit單次編輯只需約5秒,相比很多需要長時間最佳化的傳統方法,最高可實現120倍加速。
這意味著編3D第一次真正開始接近即時互動。
對於機器人、數字孿生、AR/VR等方向來說,這種變化非常重要——只有當編輯速度足夠快,3D世界才真正可能變成“可互動”的世界。
△在DeltaScene資料集上的定量結果
模型開始真正理解“空間變化”
論文裡還有一個非常有意思的實驗。研究人員輸入了一條訓練中從未出現過的指令——“將中間椅子順時針旋轉90度。”
結果模型依然成功完成了編輯。
△對未見過的指令進行泛化
這說明VGGT-Edit學到的,並不只是固定模板,它真正開始理解文本語義如何對映到3D空間變化。
而這件事,可能比“會生成3D”本身更重要。因為對於空間智慧來說,未來真正關鍵的能力,也許不是“生成一個世界”,而是能否像人一樣,自由、穩定、即時地修改這個世界。
VGGT-Edit,正在把這件事往前推進一步。
論文連結:https://arxiv.org/abs/2605.15186
版權所有,未經授權不得以任何形式轉載及使用,違者必究。
AI
聽雨
Codex自我蒸餾玩法火了!OpenAI員工親授:複製貼上就能讓AI消滅重複勞動2026-05-27
OpenAI大神教你如何榨乾Codex2026-05-23
520當天400萬AI人,都在量子位聽這近20場演講&對談|第四屆中國AIGC產業峰會2026-05-21
DeepSeek V4價格打骨折,寧王京東網易搶著入場,梁文鋒:目標是AGI2026-05-23
相關閱讀
AI教你畫油畫:任意畫風都可駕馭,筆畫序列秒秒鐘呈現,百度南大團隊打造 | Reddit高贊
用前饋網路預測筆畫
白交2021-08-16
AI
晶片巨頭正在偷偷研發這些新AI技術,不比拍照有意思
兩到三年就能落地,真的嗎?
明敏2022-07-01
AI 晶片 高通
突破視覺模擬算力瓶頸!新一代具身智慧模擬框架開源:高吞吐並行高保真渲染助力規模化訓練
真機部署“零微調”
聽雨2026-05-01
AI 具身智慧
螞蟻數科向全球開源180萬深度偽造定位資料集,助力AI演算法可解釋
IJCAI深度偽造檢測研討會召開,螞蟻數科、斯坦福大學開源AI偽造資料集
henry2025-08-18
AI
院士助力!這家上海AI公司,順著“一帶一路”將產品落地到國外
乾明2019-09-02
AI 世界
聯想凌拓推出易捷AI解決方案 可搭載NVIDIA DGX A100
聯想凌拓今日宣佈推出易捷AI解決方案。這一解決方案由聯想凌拓提供的全快閃記憶體、混合快閃記憶體陣列及NVIDIA DGX AI系統提供支援。
晶少2020-06-02
AI NVIDIA DGX A100 聯想凌拓
熱門文章
菲爾茲獎得主都看懵了:OpenAI非數學模型首次自主突破80年未解數學難題
2026-05-21
智象未來超兩千億引數影像大模型HiDream-O1-Image-Pro釋出,融資持續提速
2026-05-20
太初元碁洪源:異構計算能力將成為未來AI算力基礎設施的重要方向|AIGC2026
2026-05-20
騰訊混元開源全新翻譯模型Hy-MT2 ,上線小程式「騰訊Hy翻譯」
2026-05-21
Artificial Analysis放榜:千問3.7問鼎國產模型冠軍,全球前五
2026-05-21
掃碼關注量子位
量子位 QbitAI 版權所有©北京極客夥伴科技有限公司 京ICP備17005886號-1