2026-06-29 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-29 16:12 UTC+8

DMV-Bench：通過偶然線索注入診斷長週期多模態智能體的視覺記憶

DMV-Bench是首個針對多模態智能體視覺記憶的交互式基準測試，基於包含1000種產品的家居電商目錄構建。通過在每個產品圖像中注入獨特的偶然線索，測試智能體在長時間購物會話中回憶特定產品的能力。研究者提出雙編碼記憶架構DualMem，在Gemini 2.5 Flash和Qwen2.5-VL-7B上均優於現有系統。

來源arXiv Computer Vision作者: Yujin Tang, Chenming Shang, Ruize Xu, Nikhil Singh

近日，一項名為DMV-Bench的研究成果在arXiv上發佈，引起了人工智能領域的廣泛關注。該研究由Yujin Tang等人提出，旨在填補多模態智能體視覺記憶評估方面的空白。與以往主要關注文本記憶的基準測試不同，DMV-Bench是首個專門設計用於評估多模態智能體視覺記憶的交互式基準。

DMV-Bench基於一個可控的家居電商目錄構建，包含1000種產品變體。在測試中，每個產品圖像都攜帶一個獨特的、預渲染的偶然線索，智能體需要在自主購物會話鏈中識別並記住這些線索，最終根據線索找到對應產品的URL。這種設計確保了任務的區分信息完全隱藏在像素中，避免了文本泄漏。

受雙編碼理論的啓發，研究團隊提出了DualMem架構。該架構並行維護視覺和語言兩種編碼方式。在DMV-Bench上的實驗表明，DualMem在Gemini 2.5 Flash和Qwen2.5-VL-7B兩種模型上，均顯著優於基於字幕的基線模型以及三種最新的多模態智能體記憶系統。無論任務鏈長度J為5、10、15還是50，這種優勢都保持一致，並且能夠控制記憶庫大小和編碼位置偏差等干擾因素。

值得注意的是，研究還發現了一種非對稱的雙編碼模式：視覺通道負責從端到端承載線索信息，而語言通道僅起到較小的查詢定位作用。這一發現為未來多模態智能體的記憶系統設計提供了重要啓示。DMV-Bench的代碼已開源，供研究者使用。研究者可以通過代碼進一步驗證和擴展實驗，推動視覺記憶領域的進展。