2026-05-22 21:40 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

新框架帮助机器人将复杂语言转化为精确的3D动作

香港中文大学等机构的研究人员提出检索增强操作（RAM）框架，通过将视觉语言模型与显式3D对象表示相结合，使机器人能够理解复杂空间指令并精准执行任务，无需特定训练。该框架在真实机器人上零样本测试成功，可自适应重新规划动作。

在过去几十年里，全球机器人学家不断推出越来越先进的机器人，它们能够理解人类指令、在环境中移动并可靠地完成基本的手工任务。尽管在某些场景中表现良好，许多机器人仍难以将用户的指令转化为精确且可执行的动作，从而成功完成期望的任务。

最近，计算机科学家尝试利用视觉语言模型（VLM）来改善机器人对用户命令或查询的响应。这些AI系统能够处理图像和文本，通常可以解释“把瓶子放到盘子上”等简单请求，但缺乏空间推理能力来理解更复杂的指令并将其转化为现实世界中的可执行动作。

香港中文大学、浙江人形机器人创新中心有限公司等机构的研究人员提出了检索增强操作（RAM）框架，以提升机器人将抽象指令与周围空间3D表示连接起来的能力。该框架发表在《科学机器人》上，实验表明它能改善机器人的空间推理，使其可靠地遵循更详细的指令，而无需任务特定训练。

研究人员在论文中写道：“尽管VLM能解释高级命令，但它们缺乏执行需要精确物体放置、方向和物理推理的任务所需的内在空间智能。我们引入RAM，一个以物体为中心的框架，赋予通用视觉基础模型进行稳健操作所需的空间推理能力。”

RAM框架将VLM与显式3D对象表示相结合。与许多先前方法不同，它充当了两种能力之间的桥梁：解释人类指令和理解物体在3D空间中的存在方式。RAM通过将抽象概念锚定到显式的、以物体为中心的3D表示中，弥合了语义到几何的鸿沟。然后，这些接地信息作为增强上下文提供给VLM，使其能够将复杂指令分解为一系列空间精确且物理可行的子目标。

系统分析机器人摄像头捕获的图像，识别特定物体并构建当前环境的3D物体中心表示。这使模型能够描绘物体的位置、大致形状和尺寸、方向以及它们之间的距离。在VLM处理人类指令后，RAM将3D场景表示中的空间信息反馈给模型，从而将抽象语言转化为与当前场景物理相关的指令。

随后，框架将机器人被指令完成的任务分解为具有空间信息的子目标。将任务分解为更小的步骤使系统能够在周围环境发生变化或出现问题时调整和规划不同动作。

作者表示：“我们演示了RAM在真实机器人上以零样本方式执行这些子目标，以完成复杂的空间语言指令，在单张2D图像指导下进行空间感知操作，并通过推理物体大小和碰撞等物理约束自适应重新规划任务。在3D常见物体（CO3D）数据集上的定量评估也验证了RAM核心视觉模块泛化到未见过的物体类别，并对形状变化和遮挡具有鲁棒性。”

研究团队已经在真实机器人上测试了该框架，指令其执行各种未经训练的任务。值得注意的是，机器人能够成功完成许多任务，并在动作未能实现期望子目标时自适应重新规划。

研究人员总结：“通过在语义意图和几何执行之间提供结构化桥梁，RAM朝着开发更具物理智能和通用性的机器人系统迈出了关键一步。”该框架有望未来在家庭、工业和服务机器人中得到应用，使它们能够紧密遵循用户指令并在动态现实环境中灵活调整动作。