VL-MemKnG:结合时空知识图谱与混合记忆的长自导导航轨迹问答
本文提出VL-MemKnG,一种混合记忆框架,将时空知识图谱与片段级上下文记忆相结合,用于解决长自导视频中的导航问答任务。该框架通过结构化关系记忆和广泛时间背景的融合,显著提升了长距离证据检索的准确性。在WalkieKnowledgeT+基准上,VL-MemKnG的Top-1检索准确率从58%提升至67%,Recall@1从34.50%提升至40.55%,超越了包括Gemini 2.5 Pro和Qwen 3.5+在内的所有对比方法。
近年来,随着自导视频(egocentric video)的普及,基于长视频的导航问答任务成为研究热点。这类任务要求模型从长时间跨度、分散在多个时刻的证据中检索并组织信息,同时保持空间和上下文的一致性。虽然长上下文视觉-语言模型(如Gemini 2.5 Pro和Qwen 3.5+)在答案质量上表现优异,但计算成本高,且难以高效支持重复查询。为此,研究者提出了基于时空知识图谱的方法,如VL-KnG,但仅依赖图谱检索可能丢失时间连续性和上下文线索。
VL-MemKnG是一种新型混合记忆框架,它扩展了VL-KnG,将时空知识图谱与持久化的片段级上下文记忆相结合。知识图谱负责捕获结构化关系信息和长程对象关联,而片段级记忆则保留更广泛的时间背景,以支持长范围证据检索。混合检索-推理模块联合操作两种记忆表示,生成基于证据的答案并提供时间上组织有序的支撑证据。
为了评估模型在长时域导航问答上的性能,研究团队还推出了WalkieKnowledgeT+基准,它包含了需要跨多个非共现时刻聚合证据的时间分布式推理任务。实验结果显示,VL-MemKnG在Top-1检索准确率上从58%提升至67%,Recall@1从34.50%提升至40.55%,全面超越了Gemini 2.5 Pro和Qwen 3.5+等现有方法。特别地,在时间全局(temporal-global)和分散聚合(temporally scattered aggregation)问题上,性能提升尤为显著,证实了结构化关系记忆与片段级上下文记忆结合的优越性,同时保持了高效的查询推理速度。
该工作为长自导视频中的复杂问答任务提供了一种高效且可扩展的解决方案,有望推动机器人导航、增强现实等领域的发展。论文由Svetlana Lukina等人撰写,已被arXiv收录,编号2606.17183,于2026年6月15日提交。