2026-06-25 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-25 17:09 UTC+9

自己中心視覚理解における二重に正しい予測を持つ低遅延視覚言語モデルに向けて

本論文は、自己中心視覚理解における視覚言語モデル（VLM）の低遅延推論のために重み刈り込みを研究し、予測の正確性と証拠に基づくこと（二重に正しい予測）を両立させる手法を提案する。既存の刈り込み手法は証拠の位置特定を維持するが精度を低下させる傾向がある。提案手法は理由に基づく刈り込み戦略で証拠と決定を整合させ、自己中心ビデオベンチマークで最高精度と二重に正しい予測を達成した。

ソースarXiv Robotics著者: Qitong Wang, Fan Du, Pranav Maneriker, Jihui Jin, Christopher Rasmussen

近年、自己中心視覚理解（egocentric visual understanding）における視覚言語モデル（VLM）の急速な発展に伴い、人間とロボットの協調タスクにおける低遅延推論の重要性が高まっています。重み刈り込み技術はモデルサイズと計算量を削減し、オンボード処理やリアルタイムインタラクティブロボティクスの効率要件を満たすことができます。しかし、安全な人間とロボットの相互作用には、予測が正確であるだけでなく、証拠に基づいていること（二重に正しい予測）が求められ、リスクを軽減しユーザーの信頼を確保します。

本研究では、Qitong Wangら4人の著者による論文で、二重に正しい予測の観点からVLMの刈り込みを新たに調査しました。実験により、既存の刈り込み手法は適切な証拠の位置特定を維持するものの、正しい予測を損なうことが多いという驚くべき結果が得られました。この問題に対処するため、証拠と決定をより適切に整合させる、理由に基づく刈り込み戦略（rationale-informed pruning）を提案します。この戦略は、刈り込みの過程で最終予測に最も貢献する証拠領域を優先的に保持し、モデルを小型化しながらも予測の正確性と説明可能性を確保します。

自己中心ビデオデータセットでのベンチマーク結果は、提案手法が最高の予測精度を達成するだけでなく、二重に正しい予測の達成において既存手法を上回ることを示しています。この研究は、効率的で信頼性の高いVLMの研究を促進し、精度主導の進歩が責任ある人間とロボットの相互作用および具現化知能に必要な透明性、監査可能性、安全性と整合することを目指しています。

本論文は、2026年6月23日にarXiv（番号2606.25160）に提出され、2026年のIEEE/RSJ国際知能ロボットシステム会議（IROS 2026）で発表予定です。今後の研究では、より複雑な動的環境での二重に正しい予測の実現可能性を探求する予定です。