AI News HubLIVE
站内改写2 分で読了

VL-MemKnG:長期の自己中心視点ナビゲーション軌跡に対する質問応答のための時空間知識グラフとハイブリッドメモリ

本論文では、時空間知識グラフとセグメントレベルの文脈メモリを組み合わせたハイブリッドメモリフレームワークVL-MemKnGを提案し、長期の自己中心視点ビデオにおけるナビゲーション質問応答を実現する。WalkieKnowledgeT+ベンチマークにおいて、Top-1検索精度を58%から67%に、Recall@1を34.50%から40.55%に向上させ、Gemini 2.5 ProやQwen 3.5+を含むすべての比較手法を上回った。

ソースarXiv Robotics著者: Svetlana Lukina, Mohamad Al Mdfaa, Gloria Haro, Sergey Zagoruyko, Gonzalo Ferrer

近年、自己中心視点ビデオ(エゴセントリックビデオ)の普及に伴い、長期ビデオに基づくナビゲーション質問応答タスクが注目を集めている。このタスクでは、長時間にわたって分散した複数の瞬間から証拠を検索・整理し、空間的一貫性と文脈的一貫性を維持する必要がある。長文脈視覚言語モデル(Gemini 2.5 ProやQwen 3.5+など)は高い回答品質を達成できるが、計算コストが高く、繰り返しのクエリには非効率である。そこで、時空間知識グラフを用いたVL-KnGなどの手法が提案されたが、グラフ中心の検索だけでは時間的連続性や文脈的手がかりを十分に捉えられない。

VL-MemKnGは、VL-KnGを拡張した新しいハイブリッドメモリフレームワークであり、時空間知識グラフと永続的なセグメントレベルの文脈メモリを組み合わせる。知識グラフは構造化された関係情報と長距離オブジェクト関連を捉え、セグメントメモリは長期証拠検索のための広範な時間コンテキストを保持する。ハイブリッド検索・推論モジュールは両方のメモリ表現を共同で操作し、証拠に基づく回答と時間的に整理された補足証拠を生成する。

評価のために、研究チームはWalkieKnowledgeT+ベンチマークを導入した。これは、複数の非共起瞬間にわたる証拠集約を必要とする時間分散推論タスクを含む。実験結果では、VL-MemKnGはTop-1検索精度を58%から67%に、Recall@1を34.50%から40.55%に向上させ、Gemini 2.5 ProやQwen 3.5+を含むすべての比較手法を上回った。特に時間グローバルおよび時間的に分散した集約問題で顕著な改善が見られ、構造化リレーショナルメモリとセグメントレベルの文脈メモリを組み合わせる利点が実証された。

この研究は、長期自己中心視覚ビデオにおける複雑な質問応答タスクに対して効率的でスケーラブルなソリューションを提供し、ロボットナビゲーションや拡張現実などの分野への応用が期待される。論文はSvetlana Lukinaらによって執筆され、arXivに受理され、IDは2606.17183、2026年6月15日に提出された。