2026-05-22 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

AVI-HT：自適應視覺-IMU融合三維手部追蹤

AVI-HT是一種自適應視覺-IMU融合方法，透過聯合建模第一人稱視角影像和手套上的6自由度IMU訊號實現3D手部姿態追蹤。在嚴重視覺遮擋的手-物互動場景中，AVI-HT顯著提升了精度和可用性。其核心在於同步多模態訓練資料和跨感測器深度注意力機制。在DexGloveHOI資料集上的實驗表明，AVI-HT將平均關鍵點誤差降低了16.1%，手腕對齊變體降低了24.2%。

來源arXiv Computer Vision作者: Ziyi Kou, Ankit Kumar, Mia Huang, Taylor Niehues, Vatsal Mehta, Ergys Ristani, Li Guan

研究人員提出了一種名為AVI-HT的新型自適應視覺-IMU融合方法，用於3D手部姿態追蹤。該方法透過聯合建模第一人稱視角影像和安裝在手套上的6自由度IMU訊號，在嚴重視覺遮擋的手-物互動場景中實現了顯著的精度提升和更高的可用性。該研究由Ziyi Kou等七位作者共同完成，論文於2026年5月20日提交至arXiv預印本平臺。

AVI-HT的成功依賴於兩個關鍵組成部分：一是同步多模態訓練資料，它將人體視覺-IMU感測器流與來自運動捕捉系統的真實3D手部姿態配對；二是跨感測器深度注意力機制，該機制能夠自適應地調整對視覺和各個IMU感測器的信任度。這種注意力機制使得模型可以根據當前場景動態決定依賴視覺資訊還是IMU資料，從而有效應對視覺遮擋或IMU噪聲等挑戰。

為了在實際環境中評估AVI-HT，研究團隊構建了DexGloveHOI資料集，該資料集包含超過10萬對視覺-IMU樣本，並附有同步的3D標註姿態，使用者在日常操作中操縱各種物體。研究將AVI-HT與多種單模態和多模態追蹤方法進行了比較，使用了UmeTrack和MANO兩種手部模型。結果表明，AVI-HT的平均關鍵點誤差相比基準方法降低了16.1%，而其手腕對齊變體則降低了24.2%。

消融研究進一步揭示了IMU感測器在不同活動型別中對每個手指的貢獻，以及模型對IMU噪聲和視覺-IMU融合中時間錯位的敏感性。例如，在抓取和操作等任務中，手指上的IMU感測器提供了關鍵的運動資訊，而在視覺遮擋嚴重時，IMU訊號成為主要依據。這些發現為未來融合感知系統提供了重要參考，尤其是在虛擬現實、增強現實和機器人遙操作等需要魯棒手部追蹤的應用中。

論文的作者包括Ziyi Kou等人，相關程式碼和資料集有望在後續釋出。該研究得到了計算機視覺和模式識別領域的高度關注，並可能對下一代手部互動技術產生深遠影響。