RoboGaze:通过结构化视觉语言分析评估机器人世界模型
RoboGaze是一种无需训练的多智能体VLM框架,用于对生成的机器人操作视频进行结构化、可解释的评估。它采用三阶段流水线,输出基于新颖分类法的本地化故障报告,在多种基准测试中大幅超越零样本基线。
随着机器人世界模型的快速发展,生成合成视频用于具身预测和规划已成为可能。然而,评估这些视频的质量仍然是一个重大挑战:许多生成视频虽然在视觉上逼真,却常常违反物理定律、时间一致性或任务逻辑。传统的评估指标(如PSNR、SSIM)和单一的视觉语言模型(VLM)判断器难以泛化,也无法提供精确的诊断信息。为了应对这一问题,来自多所机构的研究人员提出了RoboGaze——一种无需训练的多智能体VLM框架,旨在为生成的机器人操作视频提供结构化、可解释的评估。
RoboGaze的核心是一个三阶段流水线。第一阶段是任务场景接地,将任务指令与视频内容对齐,提取关键场景信息。第二阶段是维度特定专家路由,根据不同的评估维度(如物理合理性、时间一致性)将任务分配给专门的VLM专家。第三阶段是批评者验证,由独立的批评模型对输出进行交叉检查,减少误报。最终,RoboGaze生成时间本地化的故障报告,这些报告按照一种新颖的6维度30类型机器人特定分类法进行分类,覆盖了常见的失效模式。
为了验证RoboGaze的有效性,研究团队构建了一个包含382个剪辑的人工验证数据集,涵盖模拟和真实世界的多视角操作场景。他们评估了8种开源和专有VLM骨干网络,结果令人印象深刻:RoboGaze在描述F1上比零样本基线提升了最多43个百分点,在时间对齐(F1×IoU)上提升了最多37个百分点,缩小了与人类上限约85%的差距。此外,其批评验证器有效缓解了标准VLM的“狼来了”误报问题,将清洁剪辑的准确率从不到25%提升至超过80%。
RoboGaze的出现为机器人世界模型的严格评估提供了一个可扩展、高度可解释的诊断工具。它不仅有助于研究人员发现模型生成的常见故障,还能指导进一步的模型改进。未来,该框架有望扩展到更复杂的任务和交互场景,成为机器人领域评估标准的重要组成部分。这一研究已作为预印本发布,论文标题为《RoboGaze: Evaluating Robot World Models via Structured Vision-Language Analysis》,作者包括Minh-Loi Nguyen等12位研究人员。