观点:视觉-语言-动作模型无法被验证具备物理推理能力
本文认为,尽管视觉-语言-动作(VLA)模型在机器人操作基准上表现不断提升,但当前评估指标无法区分语义泛化和物理泛化,因此不能证明其具备物理推理能力。作者提出通过引入控制变量的评估设计来分别测量这两种泛化能力。
近年来,视觉-语言-动作(VLA)模型在机器人操作基准测试中展现出令人瞩目的性能提升。这些提升通常被解释为,从互联网规模数据中学习的语义表征能够迁移至物理执行泛化。然而,一篇新近发表的观点论文指出,这一解释背后的假设——即语义泛化足以支撑物理行动决策——尚未得到独立验证,也无法在当前评估协议下得到检验。该论文由Taozhao Chen、Ian Manchester和Huaming Chen撰写,于2026年6月28日提交至arXiv。
研究者将VLA策略分解为语义映射和物理行动决策两个部分,并论证了任务成功率这一主导评估指标无法区分这两种能力来源。因此,基准性能的提升与多种竞争性解释一致,包括语义匹配、分布重叠以及真正的物理泛化。论文进一步指出,这种可识别性差距通过“叙事漂移”被强化,即后续系统继承并强化了早期对性能提升的解释,而未隔离潜在的因果机制。
为应对这一局限,作者提出了一种新的研究方向:引入控制变化的评估设计,以分别测量语义泛化和物理泛化。这种设计无需访问模型内部即可进行因果归因,并能够实证评估视觉-语言模型骨干作为语义接口而非隐式物理能力源的作用。论文强调,其目标并非否定视觉-语言模型在机器人学中的作用,而是阐明在何种条件下物理泛化的主张能够得到有意义的评估。这项工作对理解AI系统的泛化边界具有重要意义,并为未来机器人学习的评估方法提供了关键指导。