AI News HubLIVE
站内改写1 分钟阅读

大规模多视角捕捉下的高质量3D高斯头部重建

我们提出了HeadsUp,一种可扩展的前馈方法,用于从大规模多摄像头设置中重建高质量3D高斯头部。该方法采用高效的编码器-解码器架构,将输入视图压缩为紧凑的潜在表示,然后解码为UV参数化的3D高斯分布。该表示将3D高斯数量与输入图像的数量和分辨率解耦,支持使用多个高分辨率输入进行训练。我们在包含超过10,000个主体的内部数据集上训练和评估模型,实现了最先进的重建质量,并能泛化到未见身份,无需测试时优化。我们分析了模型在身份、视图和模型容量上的扩展行为,并展示了潜在空间在生成新3D身份和动画表情方面的应用。

苹果机器学习研究团队近期提出了一种名为HeadsUp的创新方法,旨在从多视角捕获中高效重建高质量的三维头部模型。该方法采用可扩展的前馈架构,能够在无需测试时优化的情况下生成高保真度的3D高斯头部。

HeadsUp的核心是一个精心设计的编码器-解码器架构。首先,编码器利用基于Transformer的网络将多个输入视图压缩成一个紧凑的潜在表示。随后,解码器将该潜在表示转换为一组UV参数化的3D高斯分布,这些高斯分布被锚定在一个中性的头部模板上。这种UV表示的关键优势在于,它有效地将3D高斯的数量与输入图像的分辨率和数量解耦,从而允许使用大量高分辨率视图进行训练,而不会导致计算爆炸。模型以端到端的方式联合训练,结合了光度损失和感知损失,以生成高质量的几何和纹理。

训练和评估均在苹果内部的包含超过10,000个主体的大型数据集上进行,这比现有的多视角人类头部数据集(如H3DS、NeRSemble等)大了一个数量级。HeadsUp在重建质量上达到了最先进的水平,并且能够可靠地泛化到新的身份,无需针对每个新主体进行任何微调或优化。研究人员还深入分析了模型在身份数量、视图数量和模型容量上的扩展行为,揭示了重建质量与计算成本之间的权衡关系,为实际部署提供了实用见解。

除了重建,HeadsUp的潜在空间还支持两项引人注目的下游应用:生成全新的3D身份(即身份插值或随机采样),以及通过表情混合形状为3D头部添加动画。这意味着该方法不仅在静态重建上表现出色,还能够赋能虚拟现实、电影制作和数字人等领域,实现动态、个性化的内容创作。与现有的方法如DSplats和HUGS相比,HeadsUp在可扩展性和泛化能力上具有显著优势,为大规模、高质量的头部数字化铺平了道路。