基于深度确定性策略梯度的路径规划:一种强化学习方法
本文提出一种基于深度确定性策略梯度(DDPG)的路径规划方法,用于威胁环境中的自主车辆导航。该方法将威胁建模为圆形禁入区,通过强化学习训练智能体直接从状态映射到安全动作。奖励函数包含目标吸引、障碍排斥和能量消耗惩罚。与传统最优控制方法相比,DDPG在保证路径有效性的同时大幅提升计算速度,适用于实时应用。
自主车辆在威胁环境中的路径规划是一个具有挑战性的问题。由于问题的非线性和非凸性质,即使是最简单的场景,传统最优控制方法也难以满足实时决策需求。针对这一难题,Qiang Le、Yaguang Yang和Isaac E. Weintraub提出了一种基于深度确定性策略梯度(DDPG)的强化学习方法。该方法将环境中的威胁建模为多个圆形禁入区。车辆一旦进入这些区域或未能到达目标附近区域,即视为任务失败。DDPG智能体通过模拟环境中的试错进行训练,学习从当前状态(位置和航向)到一系列可行动作的直接映射,从而安全抵达目的地。奖励函数的设计是该方法的核心,由三部分组成:一是以最终目的地为中心的吸引力场,引导车辆朝向目标;二是以各圆形障碍物为中心的排斥力场,使车辆避开危险;三是对控制能量消耗(即航向变化幅度)的惩罚,这间接鼓励车辆选择直线路径。通过这样的激励机制,DDPG训练智能体找出尽可能大的起始点集合,保证从这些点出发都能安全到达目标。这为任务规划提供了关键信息,能够提前判断从某一起点出发的任务是否可行,从而辅助预规划活动。研究团队在仿真环境中验证了该方法的有效性,并将其与传统的伪谱最优控制方法进行了对比。结果显示,基于学习的DDPG智能体能够生成有效的路径,同时计算速度显著更快,更适合实时应用场景。该论文发表于arXiv,编号2606.07855,包含14页和12张图,作者来自相关研究机构。