2026-05-27 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

異構AAV物流任務分配：一種強化學習增強的重疊聯盟形成博弈方法

針對動態城市物流中時間敏感任務隨機出現導致的異構自主空中飛行器（AAV）任務分配優化難題，本文提出一種強化學習增強的重疊聯盟形成博弈方法。該方法建立動態任務分配模型，以耦合服務質量與資源消耗的廣義物流成本量化全局最優性；並設計基於Transformer的軟演員-評論家網絡，利用多頭自注意力機制處理可變長度物流狀態、捕捉任務間時空依賴，從而自適應引導聯盟更新，取代傳統啓發式規則。理論證明聯盟形成過程構成精確勢博弈，確保有限次迭代收斂到納什穩定均衡。在32架AAV與80個任務的場景下，相比啓發式重疊聯盟形成基線，成本降低39.76%；室內飛行實驗進一步驗證了實用性。

來源arXiv Robotics作者: Yuze Zhou, Jingliang Sun, Junzhi Li, Jianxin Zhong, Zihan Wang, Teng Long

在動態城市物流中，時間敏感任務的隨機湧現給異構自主空中飛行器（AAV）的物流任務分配帶來了嚴峻的最優性挑戰。現有方法往往難以在服務質量與資源消耗之間取得平衡，更無法適應訂單到達的實時波動。為此，本文提出一種強化學習增強的重疊聯盟形成博弈方法（RL-OCF），旨在實現全局最優的任務分配。

研究團隊首先建立了一個動態任務分配模型，其中全局最優性通過一個綜合服務質量與資源消耗的廣義物流成本函數進行數學量化。該成本函數將任務完成時間、飛行距離、能耗等指標納入統一框架，為後續優化提供了明確目標。針對隨機訂單到達導致的時變任務集，他們設計了一種基於Transformer的軟演員-評論家網絡（Transformer-SAC）。該網絡採用多頭自注意力機制對可變長度的物流狀態進行編碼，並有效捕捉任務之間的時空依賴關係。通過學習得到的策略，智能體能夠自適應地引導聯盟更新，從而替代傳統重疊聯盟形成博弈中依賴專家經驗的啓發式規則。

在此基礎上，異構AAV可以為動態物流任務形成更高效的重疊聯盟。理論分析表明，該聯盟形成過程構成了一個精確勢博弈，這意味着在有限次迭代內，算法必然收斂到一個納什穩定均衡點，為任務分配提供了堅實的數學保證。數值模擬結果驗證了算法的有效性：在包含32架AAV和80個任務的場景下，與啓發式重疊聯盟形成基線相比，所提算法實現了39.76%的成本降低。此外，室內飛行實驗進一步證明了該方法在實際部署中的可行性和優越性。

綜上所述，該研究為動態城市物流中的AAV任務分配提供了一種高效且理論嚴謹的解決方案，有望在未來智慧城市物流系統中發揮關鍵作用。