强化学习中动作空间对视觉机器人操作影响的基准测试
本研究系统评估了四种动作空间(位姿增量、位姿速度、关节位置增量、关节速度)在视觉抓取和推拉任务中的表现。通过仿真训练并迁移到真实机器人,发现关节速度动作空间在平滑性和任务完成度上最优,并提供了动作空间选择的实用指南。
在现实世界的强化学习(RL)中,动作空间的选择对运动平滑性、安全性以及整体任务性能起着关键作用。一项由Seyed Alireza Azimi及其同事进行的新研究系统性地评估了四种不同的动作空间表示:位姿增量、位姿速度、关节位置增量和关节速度。该研究题为“Benchmarking Action Spaces in Reinforcement Learning for Vision-based Robotic Manipulation”,于2026年6月17日提交至arXiv,属于机器人学(cs.RO)和人工智能(cs.AI)领域。
研究团队在两个基于视觉的机器人操作任务——物体抓取和推拉——中进行了测试。他们在仿真环境中训练了强化学习策略,并利用仿真到真实迁移技术将其部署到真实机器人上。通过对比不同动作空间的表现,他们发现动作空间表示确实显著影响了从仿真到真实的性能。具体而言,关节速度动作空间在视觉抓取和推拉任务中,在运动平滑性和最终任务完成度方面均优于其他选项。关节速度动作空间有助于减少机器人运动中的抖动和不稳定,这对于真实世界的应用尤为重要,因为平稳的运动可以提高安全性并延长硬件寿命。
除了性能比较,该团队还为强化学习从业者提供了关于如何在仿真和真实实验中选择合适动作空间的实用指导。他们强调,动作空间的选择应基于任务的具体要求以及机器人硬件的限制。例如,对于需要高精度和流畅运动的操作任务,关节速度可能是首选;而对于其他场景,可能需要权衡计算复杂度和实时性。论文还提供了9页的参考文献,详细记录了实验设置和结果。
这项研究为视觉机器人操作领域的强化学习应用提供了宝贵的基准,并强调了在仿真到真实迁移中考虑动作空间的重要性。未来工作可能会探索更多类型的动作空间以及它们在更复杂任务中的表现,例如多步操作或动态环境中的任务。