2026-05-22 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

AVI-HT：自適應視覺-IMU融合三維手部追蹤

AVI-HT是一種自適應視覺-IMU融合方法，通過聯合建模第一人稱視角圖像和手套上的6自由度IMU信號實現3D手部姿態追蹤。在嚴重視覺遮擋的手-物交互場景中，AVI-HT顯著提升了精度和可用性。其核心在於同步多模態訓練數據和跨傳感器深度注意力機制。在DexGloveHOI數據集上的實驗表明，AVI-HT將平均關鍵點誤差降低了16.1%，手腕對齊變體降低了24.2%。

來源arXiv Computer Vision作者: Ziyi Kou, Ankit Kumar, Mia Huang, Taylor Niehues, Vatsal Mehta, Ergys Ristani, Li Guan

研究人員提出了一種名為AVI-HT的新型自適應視覺-IMU融合方法，用於3D手部姿態追蹤。該方法通過聯合建模第一人稱視角圖像和安裝在手套上的6自由度IMU信號，在嚴重視覺遮擋的手-物交互場景中實現了顯著的精度提升和更高的可用性。該研究由Ziyi Kou等七位作者共同完成，論文於2026年5月20日提交至arXiv預印本平台。

AVI-HT的成功依賴於兩個關鍵組成部分：一是同步多模態訓練數據，它將人體視覺-IMU傳感器流與來自運動捕捉系統的真實3D手部姿態配對；二是跨傳感器深度注意力機制，該機制能夠自適應地調整對視覺和各個IMU傳感器的信任度。這種注意力機制使得模型可以根據當前場景動態決定依賴視覺信息還是IMU數據，從而有效應對視覺遮擋或IMU噪聲等挑戰。

為了在實際環境中評估AVI-HT，研究團隊構建了DexGloveHOI數據集，該數據集包含超過10萬對視覺-IMU樣本，並附有同步的3D標註姿態，用户在日常操作中操縱各種物體。研究將AVI-HT與多種單模態和多模態追蹤方法進行了比較，使用了UmeTrack和MANO兩種手部模型。結果表明，AVI-HT的平均關鍵點誤差相比基準方法降低了16.1%，而其手腕對齊變體則降低了24.2%。

消融研究進一步揭示了IMU傳感器在不同活動類型中對每個手指的貢獻，以及模型對IMU噪聲和視覺-IMU融合中時間錯位的敏感性。例如，在抓取和操作等任務中，手指上的IMU傳感器提供了關鍵的運動信息，而在視覺遮擋嚴重時，IMU信號成為主要依據。這些發現為未來融合感知系統提供了重要參考，尤其是在虛擬現實、增強現實和機器人遙操作等需要魯棒手部追蹤的應用中。

論文的作者包括Ziyi Kou等人，相關代碼和數據集有望在後續發佈。該研究得到了計算機視覺和模式識別領域的高度關注，並可能對下一代手部交互技術產生深遠影響。