2026-06-17站内改写1 分鐘閱讀更新: 2026-06-17

VL-MemKnG：結合時空知識圖譜與混合記憶的長自導導航軌跡問答

本文提出VL-MemKnG，一種混合記憶框架，將時空知識圖譜與片段級上下文記憶相結合，用於解決長自導影片中的導航問答任務。該框架透過結構化關係記憶和廣泛時間背景的融合，顯著提升了長距離證據檢索的準確性。在WalkieKnowledgeT+基準上，VL-MemKnG的Top-1檢索準確率從58%提升至67%，Recall@1從34.50%提升至40.55%，超越了包括Gemini 2.5 Pro和Qwen 3.5+在內的所有對比方法。

來源arXiv Robotics作者: Svetlana Lukina, Mohamad Al Mdfaa, Gloria Haro, Sergey Zagoruyko, Gonzalo Ferrer

近年來，隨著自導影片（egocentric video）的普及，基於長影片的導航問答任務成為研究熱點。這類任務要求模型從長時間跨度、分散在多個時刻的證據中檢索並組織資訊，同時保持空間和上下文的一致性。雖然長上下文視覺-語言模型（如Gemini 2.5 Pro和Qwen 3.5+）在答案質量上表現優異，但計算成本高，且難以高效支援重複查詢。為此，研究者提出了基於時空知識圖譜的方法，如VL-KnG，但僅依賴圖譜檢索可能丟失時間連續性和上下文線索。

VL-MemKnG是一種新型混合記憶框架，它擴充套件了VL-KnG，將時空知識圖譜與持久化的片段級上下文記憶相結合。知識圖譜負責捕獲結構化關係資訊和長程物件關聯，而片段級記憶則保留更廣泛的時間背景，以支援長範圍證據檢索。混合檢索-推理模組聯合操作兩種記憶表示，生成基於證據的答案並提供時間上組織有序的支撐證據。

為了評估模型在長時域導航問答上的效能，研究團隊還推出了WalkieKnowledgeT+基準，它包含了需要跨多個非共現時刻聚合證據的時間分散式推理任務。實驗結果顯示，VL-MemKnG在Top-1檢索準確率上從58%提升至67%，Recall@1從34.50%提升至40.55%，全面超越了Gemini 2.5 Pro和Qwen 3.5+等現有方法。特別地，在時間全域性（temporal-global）和分散聚合（temporally scattered aggregation）問題上，效能提升尤為顯著，證實了結構化關係記憶與片段級上下文記憶結合的優越性，同時保持了高效的查詢推理速度。

該工作為長自導影片中的複雜問答任務提供了一種高效且可擴充套件的解決方案，有望推動機器人導航、增強現實等領域的發展。論文由Svetlana Lukina等人撰寫，已被arXiv收錄，編號2606.17183，於2026年6月15日提交。