AI News HubLIVE
站内改写

5秒完成3D場景編輯,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了

來自北京大學、香港中文大學、上海AI Lab等機構的研究團隊提出了VGGT-Edit,一種原生3D編輯框架,能夠在約5秒內完成場景編輯,相比傳統方法實現高達120倍的加速,並在語義一致性、多視角穩定性和推理速度上超越現有方法。

文章情報

工程師進階

要點

  • VGGT-Edit是首個原生3D編輯框架,直接在3D空間中進行編輯,避免2D方法帶來的多視角不一致問題。
  • 透過殘差場預測,模型只修改區域性變化,保持背景穩定,實現快速、高質量的編輯。
  • 深度同步文本注入機制讓文本語義與3D空間特徵持續對齊,提升編輯準確性。
  • 團隊構建了10萬規模的DeltaScene資料集,用於訓練和評估3D編輯任務。

為什麼重要

這條新聞值得關注,因為VGGT-Edit是首個原生3D編輯框架,直接在3D空間中進行編輯,避免2D方法帶來的多視角不一致問題。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

5秒完成3D場景編輯,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了 – 量子位

5秒完成3D場景編輯,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了

聽雨 2026-05-27 17:01:54

來源:量子位

不再繞回2D

VGGT-Edit團隊 投稿

量子位 | 公眾號 QbitAI

3D世界“會看”了,但還不會“改”。

從NeRF到83D Gaussian Splatting,再到VGGT、π³這類前饋式3D重建模型,整個行業的進展速度明顯加快——只需幾張圖片,就能在幾秒內重建完整3D場景。

但問題也恰恰出在這裡。這些模型雖然已經能理解三維世界,卻還不會修改三維世界。你可以讓它重建一個房間,卻很難真正告訴它:

把椅子移到窗邊,刪除中間那張椅子,把灰色皮沙發改成白色長毛沙發。

更麻煩的是,一旦涉及複雜編輯,現有方法往往迌速崩採——某些角度裡椅子消失了,換個視角椅子又重新出現;明明沒改的背景,卻跟著一起變形。

為應對這一挑戰,來自北京大學、香港中文大學、上海AI Lab、NTU等機構的研究團隊,提出了一套原生3D編輯框架:VGGT-Edit。

核心思路只有一句話——

不再繞回2D,而是直接在3D空間裡完成編輯。

在DeltaScene測試集上,VGGT-Edit在語義一致性、多視角穩定性、推理速度三個維度均超過現有方法,單次編輯僅需約5秒,最高實現120倍加速。

問題其實一直出在在2D

目前大多數編3D的方法,本質上仍然是“2D思維”——先把場景拆成多弤2D圖片,逐張編輯,再重新拼回3D。

但由於每個視角都是獨立處理的,所以很容易出現:

一個視角里椅子已經刪掉了;

換個角度椅子又重新出現;

背景區域跟著一起漂移;

物體邊緣出現重影和閃爍。

△3D編輯方法的比較

很多結果看起來更像“在不同角度硬P出來的圖”,而不是真正穩定的3D空間。

對於機器人、AR/VR、空間智慧這些方向來說,這幾乎是致命問題——這些場景真正需要的,不是“某一個角度看起來對”,而是整個3D世界始終穩定一致。

原生3D編輯,開始從概念走向可用

VGGT-Edit的核心思路非常直接:既然問題來自2D,那就不要再繞回2D。

整個框架建立在VGGT-Like前饋式重建模型之上,繼承了其快速、高效的3D表示能力。但有意思的是,團隊並沒有選擇重新生成整個場景,而是提出了一種非常巧妙的機制:

殘差場預測(Residual Field Prediction)。

簡單理解就是:模型先保留原始場景穩定的3D結構,然後只學習“哪裡需要變化”,例如:

椅子往右移動;

沙發材質發生變化;

刪除某個物體;

新增一個傢俱。

這些變化,都被表示成了:新場景 = 原場景 + 區域性殘差變化

這個設計有個非常重要的好處——因為大部分割槽域本來就不需要變化,所以模型不用重新“生成整個世界”,只需修改區域性,結果就是沒改動的背景區域會非常穩定。

這也是VGGT-Edit和很多現有方法最明顯的區別之一。

文本語義,第一次真正開始“對齊”3D空間

研究團隊發現,如果只是簡單把一句文本輸入模型,很容易出現一種情況——模型知道“你想改什麼”,但不知道“該改哪裡”。

為了解決這個問題,VGGT-Edit設計了一套關鍵機制:

深度同步文本注入(Depth-Synchronized Text Injection)

本質上可以理解成讓文本語義和3D空間特徵,在同一個深度層級裡持續同步。

傳統方法通常只在前面注入一次文本資訊,但VGGT-Edit會在多個關鍵層持續融合文本語義,這樣模型在整個3D生成過程中,始終知道:

當前應該修改哪個區域;

修改目標是什麼;

空間位置在哪裡。

與此同時,團隊還專門設計了一套“視角重要性加權”——因為並不是所有視角都同樣可靠,有些角度可能被遁擋,有些視角只能看到半個物體。

VGGT-Edit會自動判斷哪個視角更值得信任,最終讓多視角編輯結果更加穩定。

一個真正面向“3D編輯”的編輯頭

除了整體框架之外,VGGT-Edit還有一個非常關鍵的部分——專門面向3D編輯任務設計的編輯頭。

研究團隊發現,對於VGGT-Like模型來說,原本的重建Head更關注“如何恢復場景”,但3D編輯真正需要解決的問題是:如何在保持整體穩定的情況下,只修改區域性區域。

因此,VGGT-Edit額外設計了一套編輯分支,專門預測場景中的區域性變化。

這個編輯Head會直接作用於3D表示空間,並輸出對應的殘差場變化。本質上,它學習的是:

哪些區域應該保持不變;

哪些區域需要發生編輯;

編輯後如何保持多視角一致。

相比直接重新生成整個場景,這種方式更加穩定,也更加高效——這也是讓VGGT-Like前饋重建模型具有編輯能力的關鍵一步。

一個10萬規模的資料集,專門訓練“3D編輯”

為了訓練VGGT-Edit,團隊專門構建了一個新3D編輯資料集DeltaScene,規模接近10萬組,覆蓋客廳、辦公室、住宅、商業空間等多種場景。

△DeltaScene資料集概述

更重要的是,整個資料生成流程高度自動化。

團隊透過利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max,自動完成編輯指令生成、目標識別、多視角編輯、3D一致性過濾,最終得到真正滿足“多視角幾何一致”的訓練資料。

△DeltaScene資料構造流程

對於原生3D編輯來說,這一步非常關鍵——模型真正需要學習的,不只是“影像變化”,而是同一個編輯,在不同視角下如何始終保持空間一致。

3D編輯,第一次開始接近即時互動

從結果來看,這條路線確實有效。

在DeltaScene測試集上,VGGT-Edit在語義一致性、多視角穩定性、推理速度三個維度都超過了現有方法。

尤其是在新增傢俱、調整位置、修改材質這些複雜任務中,很多傳統方法仍然會出現明顯的“貼圖感”和幾何漂移,但VGGT-Edit生成的結果,會明顯更像一個真實穩定的3D空間。

△不同3D編輯任務的定性比較

更關鍵的是速度——論文中,VGGT-Edit單次編輯只需約5秒,相比很多需要長時間最佳化的傳統方法,最高可實現120倍加速。

這意味著編3D第一次真正開始接近即時互動。

對於機器人、數字孿生、AR/VR等方向來說,這種變化非常重要——只有當編輯速度足夠快,3D世界才真正可能變成“可互動”的世界。

△在DeltaScene資料集上的定量結果

模型開始真正理解“空間變化”

論文裡還有一個非常有意思的實驗。研究人員輸入了一條訓練中從未出現過的指令——“將中間椅子順時針旋轉90度。”

結果模型依然成功完成了編輯。

△對未見過的指令進行泛化

這說明VGGT-Edit學到的,並不只是固定模板,它真正開始理解文本語義如何對映到3D空間變化。

而這件事,可能比“會生成3D”本身更重要。因為對於空間智慧來說,未來真正關鍵的能力,也許不是“生成一個世界”,而是能否像人一樣,自由、穩定、即時地修改這個世界。

VGGT-Edit,正在把這件事往前推進一步。

論文連結:https://arxiv.org/abs/2605.15186

版權所有,未經授權不得以任何形式轉載及使用,違者必究。

AI

聽雨

Codex自我蒸餾玩法火了!OpenAI員工親授:複製貼上就能讓AI消滅重複勞動2026-05-27

OpenAI大神教你如何榨乾Codex2026-05-23

520當天400萬AI人,都在量子位聽這近20場演講&對談|第四屆中國AIGC產業峰會2026-05-21

DeepSeek V4價格打骨折,寧王京東網易搶著入場,梁文鋒:目標是AGI2026-05-23

相關閱讀

AI教你畫油畫:任意畫風都可駕馭,筆畫序列秒秒鐘呈現,百度南大團隊打造 | Reddit高贊

用前饋網路預測筆畫

白交2021-08-16

AI

晶片巨頭正在偷偷研發這些新AI技術,不比拍照有意思

兩到三年就能落地,真的嗎?

明敏2022-07-01

AI 晶片 高通

突破視覺模擬算力瓶頸!新一代具身智慧模擬框架開源:高吞吐並行高保真渲染助力規模化訓練

真機部署“零微調”

聽雨2026-05-01

AI 具身智慧

螞蟻數科向全球開源180萬深度偽造定位資料集,助力AI演算法可解釋

IJCAI深度偽造檢測研討會召開,螞蟻數科、斯坦福大學開源AI偽造資料集

henry2025-08-18

AI

院士助力!這家上海AI公司,順著“一帶一路”將產品落地到國外

乾明2019-09-02

AI 世界

聯想凌拓推出易捷AI解決方案 可搭載NVIDIA DGX A100

聯想凌拓今日宣佈推出易捷AI解決方案。這一解決方案由聯想凌拓提供的全快閃記憶體、混合快閃記憶體陣列及NVIDIA DGX AI系統提供支援。

晶少2020-06-02

AI NVIDIA DGX A100 聯想凌拓

熱門文章

菲爾茲獎得主都看懵了:OpenAI非數學模型首次自主突破80年未解數學難題

2026-05-21

智象未來超兩千億引數影像大模型HiDream-O1-Image-Pro釋出,融資持續提速

2026-05-20

太初元碁洪源:異構計算能力將成為未來AI算力基礎設施的重要方向|AIGC2026

2026-05-20

騰訊混元開源全新翻譯模型Hy-MT2 ,上線小程式「騰訊Hy翻譯」

2026-05-21

Artificial Analysis放榜:千問3.7問鼎國產模型冠軍,全球前五

2026-05-21

掃碼關注量子位

量子位 QbitAI 版權所有©北京極客夥伴科技有限公司 京ICP備17005886號-1