2026-06-04 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

深入场景：通过焦点计划生成打破视觉语言决策中的感知瓶颈

机器人和导航等具身视觉语言决策任务中，视觉语言模型（VLM）和视觉语言动作模型（VLA）分别擅长长期规划和反应控制，但都受限于视觉幻觉问题。本文提出SceneDiver，一种从粗到细的焦点计划生成方法，通过构建场景图并逐步分解任务，有效减少幻觉。同时设计轻量级适配器将焦点能力蒸馏至VLA，在保持计算效率的同时显著提升性能。论文已被ICML 2026接收。

来源arXiv Computer Vision作者: Boyuan Xiao, Bohong Chen, Yumeng Li, Ji Feng, Yao-Xiang Ding, Kun Zhou

在机器人操作和导航等具身视觉语言决策任务中，视觉语言模型（VLM）和视觉语言动作模型（VLA）虽然各自擅长长期规划与反应式控制，但都面临着共同的感知瓶颈——视觉幻觉。当模型无法准确区分任务相关物体与干扰物时，就会产生幻觉，导致决策失误。简单的直接关注方法（一步聚焦）被证明无效，因为有效的聚焦需要深度的场景理解。针对这一挑战，来自多所机构的研究团队（Boyuan Xiao等六位作者）提出了SceneDiver方法。SceneDiver是一种从粗到细的焦点计划生成方法，它利用VLM的长期规划能力，首先构建整体的场景图以建立初步的场景理解，然后通过识别、理解、分析的迭代循环，逐步将复杂任务分解为更简单的子问题。这种渐进式分解确保了每个子问题都能获得精确的焦点，从而减少幻觉。为了同时实现快速的反应式控制，研究团队还设计了一个轻量级适配器，将VLM的刻意聚焦能力蒸馏到VLA中。蒸馏过程使得VLA能够在不牺牲推理速度的情况下获得更好的聚焦能力。在标准的具身AI基准测试中，SceneDiver在多个任务上进行了评估，包括机器人操作和导航场景。结果显示，该方法显著降低了VLM和VLA的视觉幻觉率，同时保持了与基线相当的计算效率。特别是，在需要快速执行的任务中，SceneDiver没有引入额外的计算开销。该研究已被机器学习顶级会议ICML 2026接收，代码和数据已在项目网站上公开。SceneDiver的成功表明，通过从粗到细的焦点计划生成，可以有效地突破视觉语言模型在具身决策中的感知瓶颈，为未来更可靠的机器人系统奠定了基础。