2026-06-30 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 16:22 UTC+8

RoboGaze：通过结构化视觉语言分析评估机器人世界模型

RoboGaze是一种无需训练的多智能体VLM框架，用于对生成的机器人操作视频进行结构化、可解释的评估。它采用三阶段流水线，输出基于新颖分类法的本地化故障报告，在多种基准测试中大幅超越零样本基线。

来源arXiv Robotics作者: Minh-Loi Nguyen, Nghiem Tuong Diep, Hung Khang Nguyen, Minh Le, Doanh Le Thien, Hoang H. Tran, Dung D. Le, Vu N. Duong, Daniel Sonntag, An Thai Le, Duy Minh Ho Nguyen, Vien Anh Ngo, Tran Van Nhiem

随着机器人世界模型的快速发展，生成合成视频用于具身预测和规划已成为可能。然而，评估这些视频的质量仍然是一个重大挑战：许多生成视频虽然在视觉上逼真，却常常违反物理定律、时间一致性或任务逻辑。传统的评估指标（如PSNR、SSIM）和单一的视觉语言模型（VLM）判断器难以泛化，也无法提供精确的诊断信息。为了应对这一问题，来自多所机构的研究人员提出了RoboGaze——一种无需训练的多智能体VLM框架，旨在为生成的机器人操作视频提供结构化、可解释的评估。

RoboGaze的核心是一个三阶段流水线。第一阶段是任务场景接地，将任务指令与视频内容对齐，提取关键场景信息。第二阶段是维度特定专家路由，根据不同的评估维度（如物理合理性、时间一致性）将任务分配给专门的VLM专家。第三阶段是批评者验证，由独立的批评模型对输出进行交叉检查，减少误报。最终，RoboGaze生成时间本地化的故障报告，这些报告按照一种新颖的6维度30类型机器人特定分类法进行分类，覆盖了常见的失效模式。

为了验证RoboGaze的有效性，研究团队构建了一个包含382个剪辑的人工验证数据集，涵盖模拟和真实世界的多视角操作场景。他们评估了8种开源和专有VLM骨干网络，结果令人印象深刻：RoboGaze在描述F1上比零样本基线提升了最多43个百分点，在时间对齐（F1×IoU）上提升了最多37个百分点，缩小了与人类上限约85%的差距。此外，其批评验证器有效缓解了标准VLM的“狼来了”误报问题，将清洁剪辑的准确率从不到25%提升至超过80%。

RoboGaze的出现为机器人世界模型的严格评估提供了一个可扩展、高度可解释的诊断工具。它不仅有助于研究人员发现模型生成的常见故障，还能指导进一步的模型改进。未来，该框架有望扩展到更复杂的任务和交互场景，成为机器人领域评估标准的重要组成部分。这一研究已作为预印本发布，论文标题为《RoboGaze: Evaluating Robot World Models via Structured Vision-Language Analysis》，作者包括Minh-Loi Nguyen等12位研究人员。