2026-06-04 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

Affordance2Action：面向实时操作的任务条件场景级可交互性定位

本文提出Affordance2Action（A2A），一个以基准为中心的学习框架，用于场景级、任务条件的部件可交互性定位。其核心是A2A-Bench，一个面向操作的基准，涵盖日常场景中的单区域和多区域指令对应关系。通过A2A-AffordGen注释管线构建，实验表明A2A揭示了通用分割、VLM定位和可交互性蒸馏基线的显著差距，并改善了任务级定位，为下游操作提供了空间先验。

来源arXiv Robotics作者: Litao Liu, Yifan Han, Pengfei Yi, Wenbo Yu, Hanqing Wang, Haoran Du, Enze Yuan, Zilin Yuan, Ruiding Feng, Michael Liu, Qi Zhang, Jingjin Yu

在机器人操作领域，任务条件操作要求将指令与任务相关的功能部件（而非对象类别）对应起来。这一设置依赖于场景，并且在杂乱场景中通常是一对多的：同一物体在不同任务中可能提供不同的交互，而单个任务可能对应一个或多个有效功能区域，具体取决于场景布局。现有的可交互性数据集和基准与此设置不一致，因为它们通常专注于抓取或对象级可交互性，依赖合成场景，或假设指令与区域一一对应。

为此，研究者提出了Affordance2Action（A2A），一个以基准为中心的学习框架，用于场景级、任务条件的部件可交互性定位。该框架的核心是A2A-Bench，一个面向操作的基准，覆盖了日常场景中的单区域和多区域指令对应关系，其中多区域对应突出了真实多对象环境中可交互性定位的模糊性和多样性。为了大规模构建该基准，研究者开发了A2A-AffordGen，一个智能体辅助的注释管线，结合了语言模型过滤、交互式部件分割、实例级掩码优化、任务推理指令生成和人工验证。

A2A-Bench的监督信号进一步支持多种下游应用，其中实时可交互性定位和可交互性条件操作策略是两个代表性示例。实验表明，A2A揭示了通用分割、基于视觉语言模型（VLM）的定位和可交互性蒸馏基线的显著差距，同时改善了任务级定位，并为下游操作提供了有用的空间先验。所有数据集和代码将公开发布，以促进开放研究。

该论文由Litao Liu等12位作者于2026年6月2日提交至arXiv，共23页，属于机器人学（cs.RO）领域。研究者计划公开所有数据和代码，以推动该领域的开放研究。A2A框架不仅为可交互性定位提供了新的基准，还通过实时应用展示了其在实际操作中的潜力。