2026-05-16 15:52 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

NVIDIA推出SANA-WM：一個26億參數的開源世界模型，可在單GPU上生成分鐘級720p視頻

NVIDIA的SANA-WM是一個開源世界模型，能夠根據單張圖像和相機軌跡生成60秒720p視頻，訓練僅需64塊H100 GPU，推理可在單塊GPU上完成。其蒸餾變體在單塊RTX 5090上僅需34秒即可生成完整60秒720p視頻。

來源MarkTechPost作者: Asif Razzaq

世界模型（從初始圖像和動作序列合成逼真視頻的系統）正成為具身AI、仿真和機器人研究的核心。核心挑戰是擴展這些系統以生成長時間、高分辨率視頻，而無需龐大的訓練和推理集羣。大多數競爭性開源基線要麼需要多GPU推理，要麼犧牲分辨率來適應計算預算。

NVIDIA的SANA-WM直接針對這些瓶頸。該模型基於SANA-Video代碼庫構建，通過NVlabs/Sana GitHub倉庫提供。它是一個26億參數的擴散Transformer（DiT），原生訓練用於一分鐘720p生成，並支持度量尺度的6自由度相機控制。它支持三種單GPU推理變體：雙向生成器（高質量離線合成）、分塊因果自迴歸生成器（序列式展開）以及少步蒸餾自迴歸生成器（更快部署）。蒸餾變體在單塊RTX 5090上使用NVFP4量化，僅需34秒即可去噪出60秒720p片段。

架構：四個核心設計決策

混合線性注意力與門控DeltaNet（GDN）

標準softmax注意力的內存和計算複雜度隨序列長度二次增長——在生成60秒720p視頻的961個潛幀時，這是一個嚴重問題。前身SANA-Video使用了基於累積ReLU的線性注意力，它保持恆定大小的循環狀態。然而，它沒有衰減機制：所有過去幀以相同權重累積，導致分鐘級序列上的漂移。

SANA-WM用幀級門控DeltaNet（GDN）替換了大部分注意力塊。與語言模型中使用的逐token GDN不同，SANA-WM的幀級變體在每個循環步驟處理整個潛幀。GDN更新規則包含一個衰減門γ（降低舊過去幀的權重）和delta規則修正（僅更新目標值與當前狀態預測之間的殘差），使循環狀態保持恆定的D×D大小，無論視頻長度如何。

為了穩定訓練，研究團隊引入了代數鍵縮放方法：鍵按1/√(D·S)縮放，其中D是頭維度，S是每幀空間token數。這確保了轉移矩陣的譜範數有界，並消除了使用標準L2鍵歸一化或完全不縮放時觀察到的NaN發散事件。

最終骨幹網絡在20個總Transformer塊中交錯使用15個幀級GDN塊和5個softmax注意力塊。Softmax塊提供了GDN循環單獨不足時的精確長程回憶。

雙分支相機控制

相機控制的世界模型需要模型忠實遵循連續的6自由度軌跡，而不僅僅是對齊運動文本描述。SANA-WM使用兩個互補分支，以不同的時間速率運行：

粗分支（UCPE注意力）：以潛幀速率運行。對於每個潛token，它從相機到世界的姿態和內參計算射線局部相機基，然後對每個注意力頭的幾何通道應用統一相機位置編碼（UCPE）。這捕獲了整個序列的全局軌跡結構。

細分支（Plücker混合）：解決壓縮不匹配問題。每個潛token總結了八個原始幀，每個幀都有自己的相機姿態。細分支從一個VAE時間步內的所有八個原始幀計算逐像素Plücker射線圖（6D表示），將它們打包成48通道張量，並通過零初始化投影在每個自注意力輸出後注入此嵌入。這恢復了粗分支在潛幀分辨率下無法看到的幀內相機運動。

在OmniWorld上的消融研究表明，任一分支單獨都無法匹敵雙分支方法：僅UCPE的相機運動一致性（CamMC）為0.2453，而UCPE加Plücker混合達到0.2047。

兩階段生成管線

階段1的SANA-WM輸出雖然時空一致，但長序列中可能存在結構偽影。第二階段細化器從17B參數LTX-2模型初始化，使用秩384 LoRA適配器在成對合成和真實視頻數據上微調，糾正這些偽影。它使用截斷σ流匹配：階段1潛變量用大起始噪聲擾動，細化器學習將此噪聲輸入映射到高保真目標。推理時僅需三步歐拉去噪。細化器將長程視覺漂移（ΔIQ）從3.79降至1.17（簡單軌跡分割），從3.09降至0.31（困難軌跡分割）。

魯棒數據標註管線

訓練相機控制視頻生成需要度量尺度6自由度姿態標註，這些信息在標準視頻數據集中不可用。研究團隊修改了VIPE（相機姿態標註引擎），將其深度後端替換為Pi3X（用於長序列一致深度）並與MoGe-2（用於準確逐幀度量尺度）融合。他們還擴展了光束法平差階段，將焦距和主點視為逐幀變量而非共享全局內參，從而在焦距變化的互聯網視頻上實現更魯棒的標註。

最終管線處理來自多個開源源的七個訓練庫條目：SpatialVID-HQ（真實，10秒片段）、DL3DV真實片段（10秒）、DL3DV GS Refined合成片段（60秒，通過3D高斯濺射渲染）、OmniWorld（合成，60秒）、Sekai Game（合成，60秒）、Sekai Walking-HQ（真實，60秒）和MiraData（真實，60秒）。這產生了總共212,975個具有度量尺度姿態標註的片段。用於壓縮的LTX2-VAE比ST-DC-AE小2.0倍，比Wan2.1-VAE小8.0倍，直接提高了訓練和推理效率。

訓練策略與基礎設施

SANA-WM的計算在64塊H100 GPU上分兩個階段進行。首先，在DiT訓練之前，團隊在大約50K步中使LTX2 VAE適應SANA-Video SFT訓練數據，耗時約3.5天。然後，主要的DiT訓練遵循四個階段的漸進計劃，耗時約15天。

基準測試結果

研究團隊引入了一個專門構建的60秒世界模型基準，包含由Nano Banana Pro生成的80個初始場景，涵蓋四個場景類別。每個類別配對了簡單和困難相機軌跡分割。主要評估使用每個模型的多步、非蒸餾自迴歸設置。

在該基準上，SANA-WM配合第二階段細化器在兩個分割上均達到了最佳結果：相機準確性、視覺質量、吞吐量和時間穩定性均優於比較方法。其吞吐量比LingBot-World高36倍，內存適合80GB H100預算。

更多詳細信息請參閲論文及項目頁面。