Avatar V:扩展视频参考的虚拟形象视频生成
Avatar V是一种生产级框架,通过视频参考条件身份建模,生成不仅视觉相似而且行为可识别的虚拟形象视频。它引入稀疏参考注意力、运动表示流和身份感知超分辨率,使用超过1亿训练片段和五阶段训练流程,实现1080p无限时长视频生成,在跨场景基准测试中优于Seedance 2.0、Kling O3 Pro等系统。
近日,一篇名为《Avatar V: Scaling Video-Reference Avatar Video Generation》的论文在arXiv上发布,提出了一种面向虚拟形象视频生成的生产级框架。该框架的核心创新在于,它不再局限于单张静态图像的条件输入,而是直接利用参考视频的完整令牌序列进行条件建模,从而同时捕捉静态身份属性(如面部几何、皮肤纹理)和动态行为模式(如说话节奏、微表情)。这一方法解决了现有技术中身份保真度不足和行为不可识别的问题。
Avatar V引入了三大关键技术:稀疏参考注意力(Sparse Reference Attention)、运动表示流和身份感知超分辨率增强器。稀疏参考注意力是一种非对称注意力机制,能够以线性复杂度处理任意长度的参考视频,避免了传统注意力机制的计算瓶颈。运动表示流则实现了闭环的说话风格迁移,使得生成的虚拟形象能够自然模仿参考视频中人物的说话方式。身份感知超分辨率增强器则继承了完整的参考条件信息,进一步提升了视频的清晰度和真实感。
在数据方面,研究团队构建了一个强大的数据引擎,从5000万原始视频中筛选出超过1亿个高质量训练片段。训练流程分为五个阶段:流匹配预训练、个性微调、两阶段蒸馏(实现超过10倍的推理加速)以及基于人类反馈的强化学习对齐(RLHF)。整个系统部署在数千块GPU上,展示了其工业级的规模。
实验结果表明,Avatar V能够生成1080p分辨率、任意时长的视频,在跨场景基准测试中,其在身份保持、唇形同步和生成质量方面均达到了最先进水平,全面超越了Seedance 2.0、Kling O3 Pro、Veo 3.1和OmniHuman 1.5等领先系统。这一成果为虚拟形象视频生成领域树立了新的标杆,未来有望在虚拟现实、影视制作、远程交互等领域发挥重要作用。此外,论文还提供了详细的消融实验和定性结果,验证了每个组件的有效性。Avatar V的代码和数据尚未开源,但论文中描述了完整的实现细节,为后续研究提供了坚实的基础。