2026-05-25 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

PIMbot：一种用于多机器人强化学习对抗性操控的自适应攻击框架

本文介绍了PIMbot框架，该框架通过奖励通道激励操控和智能体自身策略操控两种互补手段，对多机器人强化学习环境进行对抗性操控。自适应多目标控制器在线平衡这些手段。实验在Gazebo仿真环境和NVIDIA Jetson Orin Nano真实嵌入式设备上验证了效果，PIMbot可作为多机器人协作任务漏洞的严格压力测试工具。

来源arXiv Robotics作者: Zexin Li, Ziliang Zhang, Hyoseung Kim, Cong Liu

近年来，强化学习在多机器人协作领域展现出巨大潜力，特别是在社会困境中，机器人需要在自身利益与集体利益之间权衡。然而，通信错误和对抗性机器人等环境因素可能影响合作，因此探索如何操纵多机器人通信以实现不同结果变得至关重要。

来自Zexin Li等人的研究团队提出了PIMbot，一个通过两种互补手段操纵结果的框架：（i）奖励通道的激励操控和（ii）智能体自身动作的策略操控。一个自适应多目标控制器在线平衡这些手段。该工作首次将这种操控方法应用于基于独特奖励函数的近期多智能体强化学习社会困境中。

利用PIMbot机制，机器人能够有效操纵社会困境环境。全面的实验结果验证了该方法在Gazebo仿真多机器人环境中的有效性。此外，在NVIDIA Jetson Orin Nano上的真实嵌入式设备案例研究量化了系统成本，并验证了PIMbot在仿真之外的真实自主嵌入式系统场景中的效果。

这些结果共同将PIMbot定位为一个严格的压力测试工具，能够暴露多机器人协作任务中的关键漏洞。该论文是IROS 2023的扩展版本，提交至arXiv于2026年5月21日。研究团队由Zexin Li等四位作者组成。实验所在的Gazebo仿真环境能够模拟复杂的多机器人交互，而Jetson Orin Nano作为代表性的嵌入式平台，展示了PIMbot在实际部署中的可行性和效率。该框架的独特之处在于其自适应控制器，能够动态调整两种操控手段的权重，以应对不同的环境状态和任务需求。未来的工作可能包括在更广泛的机器人系统中测试PIMbot，以及开发防御机制来抵御此类攻击。