NVIDIA推出SANA-WM:一个26亿参数的开源世界模型,可在单GPU上生成分钟级720p视频
NVIDIA的SANA-WM是一个开源世界模型,能够根据单张图像和相机轨迹生成60秒720p视频,训练仅需64块H100 GPU,推理可在单块GPU上完成。其蒸馏变体在单块RTX 5090上仅需34秒即可生成完整60秒720p视频。
文章情报
要点
- SANA-WM从单张图像和6自由度相机轨迹生成60秒720p视频。
- 采用混合线性注意力(门控DeltaNet)和双分支相机控制,实现高效长序列生成。
- 吞吐量比先前模型高出36倍,推理时单GPU即可运行。
- 开源发布,蒸馏变体在单块RTX 5090上34秒生成一分钟视频。
为什么重要
这条新闻值得关注,因为SANA-WM从单张图像和6自由度相机轨迹生成60秒720p视频。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
世界模型(从初始图像和动作序列合成逼真视频的系统)正成为具身AI、仿真和机器人研究的核心。核心挑战是扩展这些系统以生成长时间、高分辨率视频,而无需庞大的训练和推理集群。大多数竞争性开源基线要么需要多GPU推理,要么牺牲分辨率来适应计算预算。
NVIDIA的SANA-WM直接针对这些瓶颈。该模型基于SANA-Video代码库构建,通过NVlabs/Sana GitHub仓库提供。它是一个26亿参数的扩散Transformer(DiT),原生训练用于一分钟720p生成,并支持度量尺度的6自由度相机控制。它支持三种单GPU推理变体:双向生成器(高质量离线合成)、分块因果自回归生成器(序列式展开)以及少步蒸馏自回归生成器(更快部署)。蒸馏变体在单块RTX 5090上使用NVFP4量化,仅需34秒即可去噪出60秒720p片段。
架构:四个核心设计决策
- 混合线性注意力与门控DeltaNet(GDN)
标准softmax注意力的内存和计算复杂度随序列长度二次增长——在生成60秒720p视频的961个潜帧时,这是一个严重问题。前身SANA-Video使用了基于累积ReLU的线性注意力,它保持恒定大小的循环状态。然而,它没有衰减机制:所有过去帧以相同权重累积,导致分钟级序列上的漂移。
SANA-WM用帧级门控DeltaNet(GDN)替换了大部分注意力块。与语言模型中使用的逐token GDN不同,SANA-WM的帧级变体在每个循环步骤处理整个潜帧。GDN更新规则包含一个衰减门γ(降低旧过去帧的权重)和delta规则修正(仅更新目标值与当前状态预测之间的残差),使循环状态保持恒定的D×D大小,无论视频长度如何。
为了稳定训练,研究团队引入了代数键缩放方法:键按1/√(D·S)缩放,其中D是头维度,S是每帧空间token数。这确保了转移矩阵的谱范数有界,并消除了使用标准L2键归一化或完全不缩放时观察到的NaN发散事件。
最终骨干网络在20个总Transformer块中交错使用15个帧级GDN块和5个softmax注意力块。Softmax块提供了GDN循环单独不足时的精确长程回忆。
- 双分支相机控制
相机控制的世界模型需要模型忠实遵循连续的6自由度轨迹,而不仅仅是对齐运动文本描述。SANA-WM使用两个互补分支,以不同的时间速率运行:
粗分支(UCPE注意力):以潜帧速率运行。对于每个潜token,它从相机到世界的姿态和内参计算射线局部相机基,然后对每个注意力头的几何通道应用统一相机位置编码(UCPE)。这捕获了整个序列的全局轨迹结构。
细分支(Plücker混合):解决压缩不匹配问题。每个潜token总结了八个原始帧,每个帧都有自己的相机姿态。细分支从一个VAE时间步内的所有八个原始帧计算逐像素Plücker射线图(6D表示),将它们打包成48通道张量,并通过零初始化投影在每个自注意力输出后注入此嵌入。这恢复了粗分支在潜帧分辨率下无法看到的帧内相机运动。
在OmniWorld上的消融研究表明,任一分支单独都无法匹敌双分支方法:仅UCPE的相机运动一致性(CamMC)为0.2453,而UCPE加Plücker混合达到0.2047。
- 两阶段生成管线
阶段1的SANA-WM输出虽然时空一致,但长序列中可能存在结构伪影。第二阶段细化器从17B参数LTX-2模型初始化,使用秩384 LoRA适配器在成对合成和真实视频数据上微调,纠正这些伪影。它使用截断σ流匹配:阶段1潜变量用大起始噪声扰动,细化器学习将此噪声输入映射到高保真目标。推理时仅需三步欧拉去噪。细化器将长程视觉漂移(ΔIQ)从3.79降至1.17(简单轨迹分割),从3.09降至0.31(困难轨迹分割)。
- 鲁棒数据标注管线
训练相机控制视频生成需要度量尺度6自由度姿态标注,这些信息在标准视频数据集中不可用。研究团队修改了VIPE(相机姿态标注引擎),将其深度后端替换为Pi3X(用于长序列一致深度)并与MoGe-2(用于准确逐帧度量尺度)融合。他们还扩展了光束法平差阶段,将焦距和主点视为逐帧变量而非共享全局内参,从而在焦距变化的互联网视频上实现更鲁棒的标注。
最终管线处理来自多个开源源的七个训练库条目:SpatialVID-HQ(真实,10秒片段)、DL3DV真实片段(10秒)、DL3DV GS Refined合成片段(60秒,通过3D高斯溅射渲染)、OmniWorld(合成,60秒)、Sekai Game(合成,60秒)、Sekai Walking-HQ(真实,60秒)和MiraData(真实,60秒)。这产生了总共212,975个具有度量尺度姿态标注的片段。用于压缩的LTX2-VAE比ST-DC-AE小2.0倍,比Wan2.1-VAE小8.0倍,直接提高了训练和推理效率。
训练策略与基础设施
SANA-WM的计算在64块H100 GPU上分两个阶段进行。首先,在DiT训练之前,团队在大约50K步中使LTX2 VAE适应SANA-Video SFT训练数据,耗时约3.5天。然后,主要的DiT训练遵循四个阶段的渐进计划,耗时约15天。
基准测试结果
研究团队引入了一个专门构建的60秒世界模型基准,包含由Nano Banana Pro生成的80个初始场景,涵盖四个场景类别。每个类别配对了简单和困难相机轨迹分割。主要评估使用每个模型的多步、非蒸馏自回归设置。
在该基准上,SANA-WM配合第二阶段细化器在两个分割上均达到了最佳结果:相机准确性、视觉质量、吞吐量和时间稳定性均优于比较方法。其吞吐量比LingBot-World高36倍,内存适合80GB H100预算。
更多详细信息请参阅论文及项目页面。