AI News HubLIVE
站内改写1 分钟阅读

Dex2HOI:灵巧双手双对象交互生成

Dex2HOI是一种统一的扩散模型,能够从文本生成单对象和双对象的人-物交互(HOI)动作。它采用双流扩散方法,通过双向交叉注意力协调双手操作两个物体,并引入运动融合网络和手部相对物体表示,实现实时生成任意长度序列,推理速度相比先前最先进方法提升540倍。

来源arXiv Computer Vision作者: Chrysa Pratikaki, Pablo Ruiz-Ponce, Jiankang Deng, Stefanos Zafeiriou, Rolandos Alexandros Potamias

近年来,4D人-物交互(HOI)生成技术取得了显著进展,能够合成越来越逼真的运动,尤其是在单对象操作方面。然而,现有的研究忽略了一个人类行为的内在特性:人们通常會自然地协调双手,同时操控多个物体。为了弥補這一空白,研究者提出了Dex2HOI——一个统一的扩散模型,能够从文本描述生成单对象和双对象的HOI动作序列。该模型的提出标志着从传统的单对象HOI生成向富有表现力的多对象操控迈出了关键一步。

Dex2HOI的核心是一种双流扩散架构。在该架构中,每个对象都被分配一个独立的交互流,并通过双向交叉注意力机制在流之间进行协调。这种设计使得模型能够分别处理每个对象的运动,同时通过交叉注意力确保双手动作的协调一致。为了合成最终的运动,研究者引入了一个运动融合网络,该网络集成了新颖的手部相对物体表示,并将接触感知条件应用于整个序列。这意味着模型不仅关注手部与物体的相对位置,还考虑了手与物体之间的接触信息,从而生成更加真实自然的交互动作。

在生成效率方面,Dex2HOI通过在前缀条件窗口上进行自回归采样,实现了任意长度序列的实时生成,而无需冗余的测试时优化。相比先前的最先进方法,推理速度提升了540倍,这使得该模型在实时应用场景中具有巨大潜力。在单对象和双对象基准测试上的广泛评估表明,Dex2HOI取得了最先进的定量结果。研究团队承诺在论文被接收后释放代码和模型,这将进一步推动该领域的研究和应用。