2026-05-08 08:00 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

大规模多视角捕捉下的高质量3D高斯头部重建

我们提出了HeadsUp，一种可扩展的前馈方法，用于从大规模多摄像头设置中重建高质量3D高斯头部。该方法采用高效的编码器-解码器架构，将输入视图压缩为紧凑的潜在表示，然后解码为UV参数化的3D高斯分布。该表示将3D高斯数量与输入图像的数量和分辨率解耦，支持使用多个高分辨率输入进行训练。我们在包含超过10,000个主体的内部数据集上训练和评估模型，实现了最先进的重建质量，并能泛化到未见身份，无需测试时优化。我们分析了模型在身份、视图和模型容量上的扩展行为，并展示了潜在空间在生成新3D身份和动画表情方面的应用。

来源Apple Machine Learning Research

苹果机器学习研究团队近期提出了一种名为HeadsUp的创新方法，旨在从多视角捕获中高效重建高质量的三维头部模型。该方法采用可扩展的前馈架构，能够在无需测试时优化的情况下生成高保真度的3D高斯头部。

HeadsUp的核心是一个精心设计的编码器-解码器架构。首先，编码器利用基于Transformer的网络将多个输入视图压缩成一个紧凑的潜在表示。随后，解码器将该潜在表示转换为一组UV参数化的3D高斯分布，这些高斯分布被锚定在一个中性的头部模板上。这种UV表示的关键优势在于，它有效地将3D高斯的数量与输入图像的分辨率和数量解耦，从而允许使用大量高分辨率视图进行训练，而不会导致计算爆炸。模型以端到端的方式联合训练，结合了光度损失和感知损失，以生成高质量的几何和纹理。

训练和评估均在苹果内部的包含超过10,000个主体的大型数据集上进行，这比现有的多视角人类头部数据集（如H3DS、NeRSemble等）大了一个数量级。HeadsUp在重建质量上达到了最先进的水平，并且能够可靠地泛化到新的身份，无需针对每个新主体进行任何微调或优化。研究人员还深入分析了模型在身份数量、视图数量和模型容量上的扩展行为，揭示了重建质量与计算成本之间的权衡关系，为实际部署提供了实用见解。

除了重建，HeadsUp的潜在空间还支持两项引人注目的下游应用：生成全新的3D身份（即身份插值或随机采样），以及通过表情混合形状为3D头部添加动画。这意味着该方法不仅在静态重建上表现出色，还能够赋能虚拟现实、电影制作和数字人等领域，实现动态、个性化的内容创作。与现有的方法如DSplats和HUGS相比，HeadsUp在可扩展性和泛化能力上具有显著优势，为大规模、高质量的头部数字化铺平了道路。