2026-05-25 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

PIMbot：一種用於多機器人強化學習對抗性操控的自適應攻擊框架

本文介紹了PIMbot框架，該框架通過獎勵通道激勵操控和智能體自身策略操控兩種互補手段，對多機器人強化學習環境進行對抗性操控。自適應多目標控制器在線平衡這些手段。實驗在Gazebo仿真環境和NVIDIA Jetson Orin Nano真實嵌入式設備上驗證了效果，PIMbot可作為多機器人協作任務漏洞的嚴格壓力測試工具。

來源arXiv Robotics作者: Zexin Li, Ziliang Zhang, Hyoseung Kim, Cong Liu

近年來，強化學習在多機器人協作領域展現出巨大潛力，特別是在社會困境中，機器人需要在自身利益與集體利益之間權衡。然而，通信錯誤和對抗性機器人等環境因素可能影響合作，因此探索如何操縱多機器人通信以實現不同結果變得至關重要。

來自Zexin Li等人的研究團隊提出了PIMbot，一個通過兩種互補手段操縱結果的框架：（i）獎勵通道的激勵操控和（ii）智能體自身動作的策略操控。一個自適應多目標控制器在線平衡這些手段。該工作首次將這種操控方法應用於基於獨特獎勵函數的近期多智能體強化學習社會困境中。

利用PIMbot機制，機器人能夠有效操縱社會困境環境。全面的實驗結果驗證了該方法在Gazebo仿真多機器人環境中的有效性。此外，在NVIDIA Jetson Orin Nano上的真實嵌入式設備案例研究量化了系統成本，並驗證了PIMbot在仿真之外的真實自主嵌入式系統場景中的效果。

這些結果共同將PIMbot定位為一個嚴格的壓力測試工具，能夠暴露多機器人協作任務中的關鍵漏洞。該論文是IROS 2023的擴展版本，提交至arXiv於2026年5月21日。研究團隊由Zexin Li等四位作者組成。實驗所在的Gazebo仿真環境能夠模擬複雜的多機器人交互，而Jetson Orin Nano作為代表性的嵌入式平台，展示了PIMbot在實際部署中的可行性和效率。該框架的獨特之處在於其自適應控制器，能夠動態調整兩種操控手段的權重，以應對不同的環境狀態和任務需求。未來的工作可能包括在更廣泛的機器人系統中測試PIMbot，以及開發防禦機制來抵禦此類攻擊。