AsgardBench:一个用于视觉基础交互规划的基准测试
AsgardBench 是一个新的基准测试,旨在测试具身AI代理能否根据视觉反馈调整计划。它基于AI2-THOR模拟环境,将代理置于厨房等场景中,要求其通过观察物体状态(如杯子是否干净)来动态调整动作序列。测试表明,视觉输入显著提升了成功率,但当前模型在区分细微视觉细节、跟踪任务进度和及时更新计划方面仍有不足。
想象一下,一个机器人被要求清理厨房。它需要观察环境,决定做什么,并在事情不如预期时进行调整——例如,当它要洗的杯子已经干净,或者水槽里堆满了其他物品。这就是具身AI的领域:系统感知环境并在此环境中行动。该领域进展迅速,但评估这些系统比看起来要困难得多。许多基准测试同时评估感知、导航和物理控制,这使得难以确定AI代理是否真的利用感知来做出更好的决策,还是仅仅因为环境足够可预测而侥幸成功。
为了应对这一问题,我们创建了AsgardBench。在论文“AsgardBench — Evaluating Visually Grounded Interactive Planning Under Minimal Feedback”中,我们描述了该基准如何提出一个简单但具有挑战性的任务:给AI代理一个家务指令,让它通过图像观察环境,并观察它是否能在感知与预期相矛盾时调整计划。它能否注意到需要清洁的杯子已经在水槽里,或者没有,并相应行动?这是AsgardBench旨在回答的核心问题。
AsgardBench 构建于AI2-THOR之上,这是一个用于训练和评估AI代理执行家务任务的交互式3D模拟环境。它将代理置于物体附近,并提供一组固定的动作,如“查找”、“拾取”、“放置”、“清洁”和“打开/关闭”。在每一步,代理提出完成任务的完整步骤序列,但只有第一步被执行。整个过程中,重点完全放在计划适应上——不是代理能否导航房间或操纵物体,而是它能否利用感知来调整下一步。
例如,代理可能发现杯子是干净的、脏的或装有咖啡,或者观察到水槽中有许多其他物品,因此相同的指令可能需要不同的动作序列。AsgardBench 通过受控设置隔离了视觉基础决策的能力。在测试中,我们评估了多种领先的视觉能力模型,发现视觉输入显著提升了性能:大多数模型在给定图像时,成功率比仅凭文本描述场景时提高了一倍以上。这与此前一些基准测试形成了对比,在那里代理可以在没有视觉的情况下通过依赖失败文本反馈而表现良好。
然而,AsgardBench 的结果也揭示了当前代理的持续不足。所有模型都出现了相同的问题:尝试不可行的动作(例如,试图清洁不在水槽中的杯子)、陷入重复动作循环、误解细微视觉线索(打开/关闭、干净/脏乱),以及丢失任务进度。这些指向三个弱点:在杂乱场景中区分细微视觉细节的能力不足、跨步骤维护准确任务进度图像的能力不足,以及将所见转化为及时计划更新的能力不足。这些指出了下一代具身代理需要改进的方向。
AsgardBench 既是诊断工具也是开发工具。通过改变代理接收的反馈(无反馈、最少反馈或详细反馈),研究人员可以隔离性能提升的来源——更好的感知、更好的记忆还是更好的规划。有希望的方向包括结合更强视觉理解与更好状态跟踪的系统、强调中期任务修复计划的训练方法,以及不仅衡量代理是否成功还衡量其适应程度的评估指标。AsgardBench 是开源的,可在GitHub上获取,为推进视觉基础规划研究提供了基础。