AI News HubLIVE
サイト内リライト1 分で読了

DMV-Bench:偶発的手がかり注入による長周期マルチモーダルエージェントの視覚記憶の診断

DMV-Benchは、マルチモーダルエージェントの視覚記憶を評価する初のインタラクティブベンチマークであり、1000種類の製品を含む家具eコマースカタログに基づいています。各製品画像には固有の偶発的手がかりが埋め込まれており、エージェントは長いショッピングセッションの後に特定の製品を想起する必要があります。提案されたDualMemアーキテクチャは、視覚と言語のコードを並行して維持し、Gemini 2.5 FlashおよびQwen2.5-VL-7Bにおいてベースラインを上回る性能を示しました。

ソースarXiv Computer Vision著者: Yujin Tang, Chenming Shang, Ruize Xu, Nikhil Singh

最近、arXivに投稿されたYujin Tang氏らの研究により、マルチモーダルエージェントの視覚記憶を評価するための新しいベンチマーク「DMV-Bench」が発表されました。この研究は、エージェントの記憶に関する既存の研究が主にテキスト記憶に焦点を当てていたのに対し、視覚情報の記憶を評価する初めてのインタラクティブなベンチマークを提供します。

DMV-Benchは、1000種類の製品バリエーションを含む管理された家具eコマースカタログに基づいています。各製品画像には、事前にレンダリングされたユニークな偶発的手がかりが含まれており、エージェントは自律的なショッピングセッションの連鎖の中でこれらの手がかりを記憶し、後に対応する製品のURLを特定する必要があります。この設計により、タスクの識別情報はピクセルにのみ隠され、テキストの漏洩を防ぎます。

二重符号化理論に触発され、研究チームはDualMemアーキテクチャを提案しました。このアーキテクチャは、視覚と言語の符号を並行して維持します。DMV-Benchでの実験では、DualMemはGemini 2.5 FlashおよびQwen2.5-VL-7Bの両方において、キャプションベースラインおよび3つの最近のマルチモーダルエージェント記憶システムをすべてのチェーン長(5、10、15、50)で上回りました。その優位性は、メモリバンクサイズやエンコーディング位置バイアスを制御した後も維持されました。

さらに、研究は非対称な二重符号化様式を発見しました。視覚チャネルが手がかりをエンドツーエンドで伝達する一方、言語チャネルはクエリの接地における補助的な役割に留まります。この発見は、将来のマルチモーダルエージェントの記憶システム設計に重要な示唆を与えます。DMV-Benchのコードはオープンソースとして公開されており、研究者はこれを利用してさらなる実験や応用を行うことができます。