2026-06-05 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

从单目视频中恢复物理合理的人-物交互

本文提出RePHO方法，通过物理引导的重建框架从单目视频中恢复物理合理的人-物交互。该方法从运动学估计出发，利用强化学习策略在物理模拟器中优化交互，并采用自适应采样策略处理噪声估计，在两个基准测试上显著提升了物理合理性。

来源arXiv Computer Vision作者: Dingbang Huang, Etienne Vouga, Qixing Huang, Georgios Pavlakos

近日，一篇发表于CVPR 2026的研究论文提出了一种名为RePHO的新方法，旨在从单目视频中恢复物理合理的人-物交互（HOI）。该研究由Dingbang Huang等人完成，针对现有运动学方法生成视觉上合理但物理上存在穿模和物体漂浮等伪影的问题，引入了一个物理引导的重建框架。

RePHO的工作流程分为两个主要步骤：首先，从单目视频中获取初始的运动学估计；然后，通过强化学习（RL）训练一个策略，该策略的目标是在物理模拟器中尽可能准确地再现交互过程。由于运动学估计通常包含噪声，直接进行RL训练容易失败，因此研究团队设计了一种自适应采样策略，配备双自更新机制，能够自动识别信息量最丰富且最可靠的帧，从而逐步提升重建质量。

实验结果表明，RePHO在两个标准的人-物交互基准测试中，在物理合理性指标上明显优于现有最先进方法。该方法不仅提高了交互的真实感，还为机器人学习和虚拟现实等应用提供了更可靠的交互数据。项目代码已公开发布，更多详情可访问项目页面。