AI News HubLIVE
站内改写

RoMo:大规模、丰富组织的人体运动生成数据集与语义分类体系

RoMo是一个大规模、高质量的人体运动数据集,通过分类感知过滤管道去除静态和伪影序列,采用新颖的三级语义分类体系进行标注,支持细粒度评估,训练模型在保真度和多样性方面达到最先进水平,并发布了Motion Toolbox以标准化指标和数据转换。

文章情报

投资人进阶

要点

  • RoMo数据集解决了小规模高保真运动捕捉数据与大规模低质量野外数据之间的权衡
  • 引入分类感知过滤管道,去除静态和有伪影的序列
  • 采用三级语义分类体系,实现细粒度、按类别的评估
  • 基于RoMo训练的模型在理解复杂文本提示方面表现优越

为什么重要

这条新闻值得关注,因为RoMo数据集解决了小规模高保真运动捕捉数据与大规模低质量野外数据之间的权衡。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

在生成式建模领域,语言、图像和视频的成功已经表明,大规模、精心整理的数据集是构建强大模型的关键驱动力。然而,3D人体运动生成却一直落后于这些领域,主要受限于一个令人不满的选择:要么使用小规模但高保真的运动捕捉数据集,要么使用大规模但主要由静态或低质量序列构成的野外数据。近日,来自多个机构的研究人员联合提出了RoMo,一个丰富、大规模、精心整理的野外人运动数据集,有效解决了这一权衡问题。

RoMo数据集的构建过程中,研究团队引入了一种分类感知的过滤管道。该管道能够主动识别并移除那些静态序列或容易产生伪影的序列,从而确保了数据集的整体质量。每个保留的序列都配有详细的文本描述,并按照一种新颖的三级语义分类体系进行组织。这种层级结构不仅仅是简单的数据整理,它使得研究人员能够进行细粒度的、按类别的评估,从而揭示出全局指标(如平均精度)所掩盖的模型优势和弱点。

RoMo数据集的核心创新在于其三层语义分类体系。第一层是粗粒度的动作类别,如行走、跑步、跳跃等;第二层细化了动作的变体,如慢跑、快跑、冲刺等;第三层则包含了更细致的描述,如动作的幅度、速度、方向以及与环境交互的信息。这种层级结构不仅便于数据的检索和管理,更重要的是,它允许用户对模型在不同粒度上的表现进行深入分析。例如,一个模型可能在整体平均性能上很好,但在某些特定子类别(如涉及复杂交互的动作)上表现不佳,而传统的全局指标往往忽略这一点。

此外,研究团队还特别关注了数据集的多样性和真实性。RoMo中的数据来源于互联网上的视频,涵盖了各种真实场景,包括室内外、不同光照条件、不同穿着和姿势等。通过过滤管道,他们成功去除了大量无动作或质量低下的片段,同时保留了丰富多样的真实运动。这使得RoMo成为目前规模最大的高质量野外人运动数据集之一。

实验结果表明,基于RoMo训练的模型在生成保真度和多样性方面均达到了当前最先进水平。更重要的是,这些模型对于复杂、微妙的文本提示的理解能力显著优于以往的方法。研究团队还发布了Motion Toolbox,这是一个用于标准化评估指标、数据转换和可视化的工具包,为可重复和可解释的人体运动生成研究奠定了坚实基础。该工具箱提供了统一的评估指标(如FID、多样性等)、数据格式转换功能以及可视化工具,使得不同研究工作之间的比较更加公平和容易。

该论文已被CVPR 2026接收,相关代码和数据将在论文发表后公开发布。RoMo的推出有望推动人体运动生成领域的进一步发展,为相关研究和应用提供高质量的数据支撑。