2026-05-27 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

异构AAV物流任务分配：一种强化学习增强的重叠联盟形成博弈方法

针对动态城市物流中时间敏感任务随机出现导致的异构自主空中飞行器（AAV）任务分配优化难题，本文提出一种强化学习增强的重叠联盟形成博弈方法。该方法建立动态任务分配模型，以耦合服务质量与资源消耗的广义物流成本量化全局最优性；并设计基于Transformer的软演员-评论家网络，利用多头自注意力机制处理可变长度物流状态、捕捉任务间时空依赖，从而自适应引导联盟更新，取代传统启发式规则。理论证明联盟形成过程构成精确势博弈，确保有限次迭代收敛到纳什稳定均衡。在32架AAV与80个任务的场景下，相比启发式重叠联盟形成基线，成本降低39.76%；室内飞行实验进一步验证了实用性。

来源arXiv Robotics作者: Yuze Zhou, Jingliang Sun, Junzhi Li, Jianxin Zhong, Zihan Wang, Teng Long

在动态城市物流中，时间敏感任务的随机涌现给异构自主空中飞行器（AAV）的物流任务分配带来了严峻的最优性挑战。现有方法往往难以在服务质量与资源消耗之间取得平衡，更无法适应订单到达的实时波动。为此，本文提出一种强化学习增强的重叠联盟形成博弈方法（RL-OCF），旨在实现全局最优的任务分配。

研究团队首先建立了一个动态任务分配模型，其中全局最优性通过一个综合服务质量与资源消耗的广义物流成本函数进行数学量化。该成本函数将任务完成时间、飞行距离、能耗等指标纳入统一框架，为后续优化提供了明确目标。针对随机订单到达导致的时变任务集，他们设计了一种基于Transformer的软演员-评论家网络（Transformer-SAC）。该网络采用多头自注意力机制对可变长度的物流状态进行编码，并有效捕捉任务之间的时空依赖关系。通过学习得到的策略，智能体能够自适应地引导联盟更新，从而替代传统重叠联盟形成博弈中依赖专家经验的启发式规则。

在此基础上，异构AAV可以为动态物流任务形成更高效的重叠联盟。理论分析表明，该联盟形成过程构成了一个精确势博弈，这意味着在有限次迭代内，算法必然收敛到一个纳什稳定均衡点，为任务分配提供了坚实的数学保证。数值模拟结果验证了算法的有效性：在包含32架AAV和80个任务的场景下，与启发式重叠联盟形成基线相比，所提算法实现了39.76%的成本降低。此外，室内飞行实验进一步证明了该方法在实际部署中的可行性和优越性。

综上所述，该研究为动态城市物流中的AAV任务分配提供了一种高效且理论严谨的解决方案，有望在未来智慧城市物流系统中发挥关键作用。