2026-05-22 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

AVI-HT: 適応的視覚-IMU融合による3Dハンドトラッキング

AVI-HTは、視線画像と手袋上の6自由度IMU信号を共同でモデル化することで、3D手の姿勢を追跡する適応的視覚-IMU融合アプローチです。特に視覚的遮蔽が激しい手-物体相互作用シナリオにおいて、精度と可用性が大幅に向上します。成功の鍵は、同期されたマルチモーダルトレーニングデータとクロスセンサー深層注意機構です。DexGloveHOIデータセットでの実験により、AVI-HTは平均キーポイント誤差をベースライン比16.1%削減し、手首アライメント変種では24.2%削減しました。

ソースarXiv Computer Vision著者: Ziyi Kou, Ankit Kumar, Mia Huang, Taylor Niehues, Vatsal Mehta, Ergys Ristani, Li Guan

研究者らは、3D手の姿勢追跡のための新しい適応的視覚-IMU融合手法AVI-HTを提案した。本手法は、一人称視点画像と手袋に取り付けられた6自由度IMU信号を共同でモデル化することにより、視覚遮蔽が激しい手-物体相互作用シナリオにおいて顕著な精度向上と高い可用性を実現する。この研究はZiyi Kouら7名の著者により行われ、2026年5月20日にarXivプレプリントプラットフォームに投稿された。

AVI-HTの成功は、二つの相補的な要素に支えられている。第一に、身体装着型の視覚-IMUセンサーストリームとモーションキャプチャシステムからの実測3D手姿勢をペアリングした同期マルチモーダルトレーニングデータ、第二に、視覚と個々のIMUセンサーへの信頼度を適応的に調整するクロスセンサー深層注意機構である。この注意機構により、モデルは現在のシーンに応じて視覚情報とIMUデータのどちらに依存するかを動的に決定でき、視覚遮蔽やIMUノイズなどの課題に効果的に対処できる。

実環境での評価のため、研究チームはDexGloveHOIデータセットを構築した。このデータセットは10万以上のペア視覚-IMUサンプルと同期された3D注釈姿勢からなり、ユーザーが日常的なタスクで様々な物体を操作する様子が含まれている。研究では、UmeTrackおよびMANOの2つの手モデルを用いて、複数の単一モーダルおよびマルチモーダル追跡手法との比較を行った。結果、AVI-HTは平均キーポイント誤差をベースライン比16.1%削減し、手首アライメント変種では24.2%削減した。

アブレーション研究により、活動タイプ別の指ごとのIMUセンサーの寄与、およびIMUノイズと視覚-IMU融合における時間的ずれに対するモデルの感度が明らかになった。例えば、把握や操作などのタスクでは、指上のIMUセンサーが重要な運動情報を提供し、視覚遮蔽が激しい場合にはIMU信号が主要な情報源となる。これらの知見は、将来の融合型センシングシステム、特にバーチャルリアリティ、拡張現実、ロボット遠隔操作などのロバストな手の追跡を必要とする用途に重要な示唆を与える。

論文の著者にはZiyi Kouらが含まれ、関連するコードとデータセットは後日公開される予定である。この研究はコンピュータビジョンとパターン認識の分野で高い注目を集めており、次世代の手のインタラクション技術に大きな影響を与える可能性がある。