2026-06-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-29 16:12 UTC+8

DMV-Bench：通过偶然线索注入诊断长周期多模态智能体的视觉记忆

DMV-Bench是首个针对多模态智能体视觉记忆的交互式基准测试，基于包含1000种产品的家居电商目录构建。通过在每个产品图像中注入独特的偶然线索，测试智能体在长时间购物会话中回忆特定产品的能力。研究者提出双编码记忆架构DualMem，在Gemini 2.5 Flash和Qwen2.5-VL-7B上均优于现有系统。

来源arXiv Computer Vision作者: Yujin Tang, Chenming Shang, Ruize Xu, Nikhil Singh

近日，一项名为DMV-Bench的研究成果在arXiv上发布，引起了人工智能领域的广泛关注。该研究由Yujin Tang等人提出，旨在填补多模态智能体视觉记忆评估方面的空白。与以往主要关注文本记忆的基准测试不同，DMV-Bench是首个专门设计用于评估多模态智能体视觉记忆的交互式基准。

DMV-Bench基于一个可控的家居电商目录构建，包含1000种产品变体。在测试中，每个产品图像都携带一个独特的、预渲染的偶然线索，智能体需要在自主购物会话链中识别并记住这些线索，最终根据线索找到对应产品的URL。这种设计确保了任务的区分信息完全隐藏在像素中，避免了文本泄漏。

受双编码理论的启发，研究团队提出了DualMem架构。该架构并行维护视觉和语言两种编码方式。在DMV-Bench上的实验表明，DualMem在Gemini 2.5 Flash和Qwen2.5-VL-7B两种模型上，均显著优于基于字幕的基线模型以及三种最新的多模态智能体记忆系统。无论任务链长度J为5、10、15还是50，这种优势都保持一致，并且能够控制记忆库大小和编码位置偏差等干扰因素。

值得注意的是，研究还发现了一种非对称的双编码模式：视觉通道负责从端到端承载线索信息，而语言通道仅起到较小的查询定位作用。这一发现为未来多模态智能体的记忆系统设计提供了重要启示。DMV-Bench的代码已开源，供研究者使用。研究者可以通过代码进一步验证和扩展实验，推动视觉记忆领域的进展。