2026-05-16 15:52 UTC+8站内改写3 分钟阅读更新: 2026-06-30 21:03 UTC+8

NVIDIA推出SANA-WM：一个26亿参数的开源世界模型，可在单GPU上生成分钟级720p视频

NVIDIA的SANA-WM是一个开源世界模型，能够根据单张图像和相机轨迹生成60秒720p视频，训练仅需64块H100 GPU，推理可在单块GPU上完成。其蒸馏变体在单块RTX 5090上仅需34秒即可生成完整60秒720p视频。

来源MarkTechPost作者: Asif Razzaq

世界模型（从初始图像和动作序列合成逼真视频的系统）正成为具身AI、仿真和机器人研究的核心。核心挑战是扩展这些系统以生成长时间、高分辨率视频，而无需庞大的训练和推理集群。大多数竞争性开源基线要么需要多GPU推理，要么牺牲分辨率来适应计算预算。

NVIDIA的SANA-WM直接针对这些瓶颈。该模型基于SANA-Video代码库构建，通过NVlabs/Sana GitHub仓库提供。它是一个26亿参数的扩散Transformer（DiT），原生训练用于一分钟720p生成，并支持度量尺度的6自由度相机控制。它支持三种单GPU推理变体：双向生成器（高质量离线合成）、分块因果自回归生成器（序列式展开）以及少步蒸馏自回归生成器（更快部署）。蒸馏变体在单块RTX 5090上使用NVFP4量化，仅需34秒即可去噪出60秒720p片段。

架构：四个核心设计决策

混合线性注意力与门控DeltaNet（GDN）

标准softmax注意力的内存和计算复杂度随序列长度二次增长——在生成60秒720p视频的961个潜帧时，这是一个严重问题。前身SANA-Video使用了基于累积ReLU的线性注意力，它保持恒定大小的循环状态。然而，它没有衰减机制：所有过去帧以相同权重累积，导致分钟级序列上的漂移。

SANA-WM用帧级门控DeltaNet（GDN）替换了大部分注意力块。与语言模型中使用的逐token GDN不同，SANA-WM的帧级变体在每个循环步骤处理整个潜帧。GDN更新规则包含一个衰减门γ（降低旧过去帧的权重）和delta规则修正（仅更新目标值与当前状态预测之间的残差），使循环状态保持恒定的D×D大小，无论视频长度如何。

为了稳定训练，研究团队引入了代数键缩放方法：键按1/√(D·S)缩放，其中D是头维度，S是每帧空间token数。这确保了转移矩阵的谱范数有界，并消除了使用标准L2键归一化或完全不缩放时观察到的NaN发散事件。

最终骨干网络在20个总Transformer块中交错使用15个帧级GDN块和5个softmax注意力块。Softmax块提供了GDN循环单独不足时的精确长程回忆。

双分支相机控制

相机控制的世界模型需要模型忠实遵循连续的6自由度轨迹，而不仅仅是对齐运动文本描述。SANA-WM使用两个互补分支，以不同的时间速率运行：

粗分支（UCPE注意力）：以潜帧速率运行。对于每个潜token，它从相机到世界的姿态和内参计算射线局部相机基，然后对每个注意力头的几何通道应用统一相机位置编码（UCPE）。这捕获了整个序列的全局轨迹结构。

细分支（Plücker混合）：解决压缩不匹配问题。每个潜token总结了八个原始帧，每个帧都有自己的相机姿态。细分支从一个VAE时间步内的所有八个原始帧计算逐像素Plücker射线图（6D表示），将它们打包成48通道张量，并通过零初始化投影在每个自注意力输出后注入此嵌入。这恢复了粗分支在潜帧分辨率下无法看到的帧内相机运动。

在OmniWorld上的消融研究表明，任一分支单独都无法匹敌双分支方法：仅UCPE的相机运动一致性（CamMC）为0.2453，而UCPE加Plücker混合达到0.2047。

两阶段生成管线

阶段1的SANA-WM输出虽然时空一致，但长序列中可能存在结构伪影。第二阶段细化器从17B参数LTX-2模型初始化，使用秩384 LoRA适配器在成对合成和真实视频数据上微调，纠正这些伪影。它使用截断σ流匹配：阶段1潜变量用大起始噪声扰动，细化器学习将此噪声输入映射到高保真目标。推理时仅需三步欧拉去噪。细化器将长程视觉漂移（ΔIQ）从3.79降至1.17（简单轨迹分割），从3.09降至0.31（困难轨迹分割）。

鲁棒数据标注管线

训练相机控制视频生成需要度量尺度6自由度姿态标注，这些信息在标准视频数据集中不可用。研究团队修改了VIPE（相机姿态标注引擎），将其深度后端替换为Pi3X（用于长序列一致深度）并与MoGe-2（用于准确逐帧度量尺度）融合。他们还扩展了光束法平差阶段，将焦距和主点视为逐帧变量而非共享全局内参，从而在焦距变化的互联网视频上实现更鲁棒的标注。

最终管线处理来自多个开源源的七个训练库条目：SpatialVID-HQ（真实，10秒片段）、DL3DV真实片段（10秒）、DL3DV GS Refined合成片段（60秒，通过3D高斯溅射渲染）、OmniWorld（合成，60秒）、Sekai Game（合成，60秒）、Sekai Walking-HQ（真实，60秒）和MiraData（真实，60秒）。这产生了总共212,975个具有度量尺度姿态标注的片段。用于压缩的LTX2-VAE比ST-DC-AE小2.0倍，比Wan2.1-VAE小8.0倍，直接提高了训练和推理效率。

训练策略与基础设施

SANA-WM的计算在64块H100 GPU上分两个阶段进行。首先，在DiT训练之前，团队在大约50K步中使LTX2 VAE适应SANA-Video SFT训练数据，耗时约3.5天。然后，主要的DiT训练遵循四个阶段的渐进计划，耗时约15天。

基准测试结果

研究团队引入了一个专门构建的60秒世界模型基准，包含由Nano Banana Pro生成的80个初始场景，涵盖四个场景类别。每个类别配对了简单和困难相机轨迹分割。主要评估使用每个模型的多步、非蒸馏自回归设置。

在该基准上，SANA-WM配合第二阶段细化器在两个分割上均达到了最佳结果：相机准确性、视觉质量、吞吐量和时间稳定性均优于比较方法。其吞吐量比LingBot-World高36倍，内存适合80GB H100预算。

更多详细信息请参阅论文及项目页面。