2026-05-22 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

AVI-HT：自适应视觉-IMU融合三维手部追踪

AVI-HT是一种自适应视觉-IMU融合方法，通过联合建模第一人称视角图像和手套上的6自由度IMU信号实现3D手部姿态追踪。在严重视觉遮挡的手-物交互场景中，AVI-HT显著提升了精度和可用性。其核心在于同步多模态训练数据和跨传感器深度注意力机制。在DexGloveHOI数据集上的实验表明，AVI-HT将平均关键点误差降低了16.1%，手腕对齐变体降低了24.2%。

来源arXiv Computer Vision作者: Ziyi Kou, Ankit Kumar, Mia Huang, Taylor Niehues, Vatsal Mehta, Ergys Ristani, Li Guan

研究人员提出了一种名为AVI-HT的新型自适应视觉-IMU融合方法，用于3D手部姿态追踪。该方法通过联合建模第一人称视角图像和安装在手套上的6自由度IMU信号，在严重视觉遮挡的手-物交互场景中实现了显著的精度提升和更高的可用性。该研究由Ziyi Kou等七位作者共同完成，论文于2026年5月20日提交至arXiv预印本平台。

AVI-HT的成功依赖于两个关键组成部分：一是同步多模态训练数据，它将人体视觉-IMU传感器流与来自运动捕捉系统的真实3D手部姿态配对；二是跨传感器深度注意力机制，该机制能够自适应地调整对视觉和各个IMU传感器的信任度。这种注意力机制使得模型可以根据当前场景动态决定依赖视觉信息还是IMU数据，从而有效应对视觉遮挡或IMU噪声等挑战。

为了在实际环境中评估AVI-HT，研究团队构建了DexGloveHOI数据集，该数据集包含超过10万对视觉-IMU样本，并附有同步的3D标注姿态，用户在日常操作中操纵各种物体。研究将AVI-HT与多种单模态和多模态追踪方法进行了比较，使用了UmeTrack和MANO两种手部模型。结果表明，AVI-HT的平均关键点误差相比基准方法降低了16.1%，而其手腕对齐变体则降低了24.2%。

消融研究进一步揭示了IMU传感器在不同活动类型中对每个手指的贡献，以及模型对IMU噪声和视觉-IMU融合中时间错位的敏感性。例如，在抓取和操作等任务中，手指上的IMU传感器提供了关键的运动信息，而在视觉遮挡严重时，IMU信号成为主要依据。这些发现为未来融合感知系统提供了重要参考，尤其是在虚拟现实、增强现实和机器人遥操作等需要鲁棒手部追踪的应用中。

论文的作者包括Ziyi Kou等人，相关代码和数据集有望在后续发布。该研究得到了计算机视觉和模式识别领域的高度关注，并可能对下一代手部交互技术产生深远影响。