2026-06-15站内改写1 分钟阅读更新: 2026-06-15

Avatar V：扩展视频参考的虚拟形象视频生成

Avatar V是一种生产级框架，通过视频参考条件身份建模，生成不仅视觉相似而且行为可识别的虚拟形象视频。它引入稀疏参考注意力、运动表示流和身份感知超分辨率，使用超过1亿训练片段和五阶段训练流程，实现1080p无限时长视频生成，在跨场景基准测试中优于Seedance 2.0、Kling O3 Pro等系统。

来源arXiv Computer Vision作者: Benjamin Liang, Ce Chen, Desmond Lin, Ivan Somov, Jiajun Zhao, Jiewei Yuan, Jingfeng Zhang, Junhao Huang, Nik Nolte, Pedram Haqiqi, Penghan Wang, Rong Yan, Rui Zhang, Sam Prokopchuk, Sivan Wang, Viktor Goriachko, Yi Ren, Yuanming Li, Yutao Chen, Zhenhui Ye, Zhibin Hong, Zilong Nie, Zujin Guo

近日，一篇名为《Avatar V: Scaling Video-Reference Avatar Video Generation》的论文在arXiv上发布，提出了一种面向虚拟形象视频生成的生产级框架。该框架的核心创新在于，它不再局限于单张静态图像的条件输入，而是直接利用参考视频的完整令牌序列进行条件建模，从而同时捕捉静态身份属性（如面部几何、皮肤纹理）和动态行为模式（如说话节奏、微表情）。这一方法解决了现有技术中身份保真度不足和行为不可识别的问题。

Avatar V引入了三大关键技术：稀疏参考注意力（Sparse Reference Attention）、运动表示流和身份感知超分辨率增强器。稀疏参考注意力是一种非对称注意力机制，能够以线性复杂度处理任意长度的参考视频，避免了传统注意力机制的计算瓶颈。运动表示流则实现了闭环的说话风格迁移，使得生成的虚拟形象能够自然模仿参考视频中人物的说话方式。身份感知超分辨率增强器则继承了完整的参考条件信息，进一步提升了视频的清晰度和真实感。

在数据方面，研究团队构建了一个强大的数据引擎，从5000万原始视频中筛选出超过1亿个高质量训练片段。训练流程分为五个阶段：流匹配预训练、个性微调、两阶段蒸馏（实现超过10倍的推理加速）以及基于人类反馈的强化学习对齐（RLHF）。整个系统部署在数千块GPU上，展示了其工业级的规模。

实验结果表明，Avatar V能够生成1080p分辨率、任意时长的视频，在跨场景基准测试中，其在身份保持、唇形同步和生成质量方面均达到了最先进水平，全面超越了Seedance 2.0、Kling O3 Pro、Veo 3.1和OmniHuman 1.5等领先系统。这一成果为虚拟形象视频生成领域树立了新的标杆，未来有望在虚拟现实、影视制作、远程交互等领域发挥重要作用。此外，论文还提供了详细的消融实验和定性结果，验证了每个组件的有效性。Avatar V的代码和数据尚未开源，但论文中描述了完整的实现细节，为后续研究提供了坚实的基础。