AI News HubLIVE
站内改写

NVIDIA推出SANA-WM:一個26億參數的開源世界模型,可在單GPU上生成分鐘級720p視頻

NVIDIA的SANA-WM是一個開源世界模型,能夠根據單張圖像和相機軌跡生成60秒720p視頻,訓練僅需64塊H100 GPU,推理可在單塊GPU上完成。其蒸餾變體在單塊RTX 5090上僅需34秒即可生成完整60秒720p視頻。

文章情報

工程師進階

要點

  • SANA-WM從單張圖像和6自由度相機軌跡生成60秒720p視頻。
  • 採用混合線性注意力(門控DeltaNet)和雙分支相機控制,實現高效長序列生成。
  • 吞吐量比先前模型高出36倍,推理時單GPU即可運行。
  • 開源發佈,蒸餾變體在單塊RTX 5090上34秒生成一分鐘視頻。

為甚麼重要

這條新聞值得關注,因為SANA-WM從單張圖像和6自由度相機軌跡生成60秒720p視頻。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

世界模型(從初始圖像和動作序列合成逼真視頻的系統)正成為具身AI、仿真和機器人研究的核心。核心挑戰是擴展這些系統以生成長時間、高分辨率視頻,而無需龐大的訓練和推理集羣。大多數競爭性開源基線要麼需要多GPU推理,要麼犧牲分辨率來適應計算預算。

NVIDIA的SANA-WM直接針對這些瓶頸。該模型基於SANA-Video代碼庫構建,通過NVlabs/Sana GitHub倉庫提供。它是一個26億參數的擴散Transformer(DiT),原生訓練用於一分鐘720p生成,並支持度量尺度的6自由度相機控制。它支持三種單GPU推理變體:雙向生成器(高質量離線合成)、分塊因果自迴歸生成器(序列式展開)以及少步蒸餾自迴歸生成器(更快部署)。蒸餾變體在單塊RTX 5090上使用NVFP4量化,僅需34秒即可去噪出60秒720p片段。

架構:四個核心設計決策

  1. 混合線性注意力與門控DeltaNet(GDN)

標準softmax注意力的內存和計算複雜度隨序列長度二次增長——在生成60秒720p視頻的961個潛幀時,這是一個嚴重問題。前身SANA-Video使用了基於累積ReLU的線性注意力,它保持恆定大小的循環狀態。然而,它沒有衰減機制:所有過去幀以相同權重累積,導致分鐘級序列上的漂移。

SANA-WM用幀級門控DeltaNet(GDN)替換了大部分注意力塊。與語言模型中使用的逐token GDN不同,SANA-WM的幀級變體在每個循環步驟處理整個潛幀。GDN更新規則包含一個衰減門γ(降低舊過去幀的權重)和delta規則修正(僅更新目標值與當前狀態預測之間的殘差),使循環狀態保持恆定的D×D大小,無論視頻長度如何。

為了穩定訓練,研究團隊引入了代數鍵縮放方法:鍵按1/√(D·S)縮放,其中D是頭維度,S是每幀空間token數。這確保了轉移矩陣的譜範數有界,並消除了使用標準L2鍵歸一化或完全不縮放時觀察到的NaN發散事件。

最終骨幹網絡在20個總Transformer塊中交錯使用15個幀級GDN塊和5個softmax注意力塊。Softmax塊提供了GDN循環單獨不足時的精確長程回憶。

  1. 雙分支相機控制

相機控制的世界模型需要模型忠實遵循連續的6自由度軌跡,而不僅僅是對齊運動文本描述。SANA-WM使用兩個互補分支,以不同的時間速率運行:

粗分支(UCPE注意力):以潛幀速率運行。對於每個潛token,它從相機到世界的姿態和內參計算射線局部相機基,然後對每個注意力頭的幾何通道應用統一相機位置編碼(UCPE)。這捕獲了整個序列的全局軌跡結構。

細分支(Plücker混合):解決壓縮不匹配問題。每個潛token總結了八個原始幀,每個幀都有自己的相機姿態。細分支從一個VAE時間步內的所有八個原始幀計算逐像素Plücker射線圖(6D表示),將它們打包成48通道張量,並通過零初始化投影在每個自注意力輸出後注入此嵌入。這恢復了粗分支在潛幀分辨率下無法看到的幀內相機運動。

在OmniWorld上的消融研究表明,任一分支單獨都無法匹敵雙分支方法:僅UCPE的相機運動一致性(CamMC)為0.2453,而UCPE加Plücker混合達到0.2047。

  1. 兩階段生成管線

階段1的SANA-WM輸出雖然時空一致,但長序列中可能存在結構偽影。第二階段細化器從17B參數LTX-2模型初始化,使用秩384 LoRA適配器在成對合成和真實視頻數據上微調,糾正這些偽影。它使用截斷σ流匹配:階段1潛變量用大起始噪聲擾動,細化器學習將此噪聲輸入映射到高保真目標。推理時僅需三步歐拉去噪。細化器將長程視覺漂移(ΔIQ)從3.79降至1.17(簡單軌跡分割),從3.09降至0.31(困難軌跡分割)。

  1. 魯棒數據標註管線

訓練相機控制視頻生成需要度量尺度6自由度姿態標註,這些信息在標準視頻數據集中不可用。研究團隊修改了VIPE(相機姿態標註引擎),將其深度後端替換為Pi3X(用於長序列一致深度)並與MoGe-2(用於準確逐幀度量尺度)融合。他們還擴展了光束法平差階段,將焦距和主點視為逐幀變量而非共享全局內參,從而在焦距變化的互聯網視頻上實現更魯棒的標註。

最終管線處理來自多個開源源的七個訓練庫條目:SpatialVID-HQ(真實,10秒片段)、DL3DV真實片段(10秒)、DL3DV GS Refined合成片段(60秒,通過3D高斯濺射渲染)、OmniWorld(合成,60秒)、Sekai Game(合成,60秒)、Sekai Walking-HQ(真實,60秒)和MiraData(真實,60秒)。這產生了總共212,975個具有度量尺度姿態標註的片段。用於壓縮的LTX2-VAE比ST-DC-AE小2.0倍,比Wan2.1-VAE小8.0倍,直接提高了訓練和推理效率。

訓練策略與基礎設施

SANA-WM的計算在64塊H100 GPU上分兩個階段進行。首先,在DiT訓練之前,團隊在大約50K步中使LTX2 VAE適應SANA-Video SFT訓練數據,耗時約3.5天。然後,主要的DiT訓練遵循四個階段的漸進計劃,耗時約15天。

基準測試結果

研究團隊引入了一個專門構建的60秒世界模型基準,包含由Nano Banana Pro生成的80個初始場景,涵蓋四個場景類別。每個類別配對了簡單和困難相機軌跡分割。主要評估使用每個模型的多步、非蒸餾自迴歸設置。

在該基準上,SANA-WM配合第二階段細化器在兩個分割上均達到了最佳結果:相機準確性、視覺質量、吞吐量和時間穩定性均優於比較方法。其吞吐量比LingBot-World高36倍,內存適合80GB H100預算。

更多詳細信息請參閲論文及項目頁面。