深入场景:通过焦点计划生成打破视觉语言决策中的感知瓶颈
机器人和导航等具身视觉语言决策任务中,视觉语言模型(VLM)和视觉语言动作模型(VLA)分别擅长长期规划和反应控制,但都受限于视觉幻觉问题。本文提出SceneDiver,一种从粗到细的焦点计划生成方法,通过构建场景图并逐步分解任务,有效减少幻觉。同时设计轻量级适配器将焦点能力蒸馏至VLA,在保持计算效率的同时显著提升性能。论文已被ICML 2026接收。
在机器人操作和导航等具身视觉语言决策任务中,视觉语言模型(VLM)和视觉语言动作模型(VLA)虽然各自擅长长期规划与反应式控制,但都面临着共同的感知瓶颈——视觉幻觉。当模型无法准确区分任务相关物体与干扰物时,就会产生幻觉,导致决策失误。简单的直接关注方法(一步聚焦)被证明无效,因为有效的聚焦需要深度的场景理解。针对这一挑战,来自多所机构的研究团队(Boyuan Xiao等六位作者)提出了SceneDiver方法。SceneDiver是一种从粗到细的焦点计划生成方法,它利用VLM的长期规划能力,首先构建整体的场景图以建立初步的场景理解,然后通过识别、理解、分析的迭代循环,逐步将复杂任务分解为更简单的子问题。这种渐进式分解确保了每个子问题都能获得精确的焦点,从而减少幻觉。为了同时实现快速的反应式控制,研究团队还设计了一个轻量级适配器,将VLM的刻意聚焦能力蒸馏到VLA中。蒸馏过程使得VLA能够在不牺牲推理速度的情况下获得更好的聚焦能力。在标准的具身AI基准测试中,SceneDiver在多个任务上进行了评估,包括机器人操作和导航场景。结果显示,该方法显著降低了VLM和VLA的视觉幻觉率,同时保持了与基线相当的计算效率。特别是,在需要快速执行的任务中,SceneDiver没有引入额外的计算开销。该研究已被机器学习顶级会议ICML 2026接收,代码和数据已在项目网站上公开。SceneDiver的成功表明,通过从粗到细的焦点计划生成,可以有效地突破视觉语言模型在具身决策中的感知瓶颈,为未来更可靠的机器人系统奠定了基础。