2026-06-09站内改写1 分钟阅读更新: 2026-06-09

基于深度确定性策略梯度的路径规划：一种强化学习方法

本文提出一种基于深度确定性策略梯度（DDPG）的路径规划方法，用于威胁环境中的自主车辆导航。该方法将威胁建模为圆形禁入区，通过强化学习训练智能体直接从状态映射到安全动作。奖励函数包含目标吸引、障碍排斥和能量消耗惩罚。与传统最优控制方法相比，DDPG在保证路径有效性的同时大幅提升计算速度，适用于实时应用。

来源arXiv Robotics作者: Qiang Le, Yaguang Yang, Isaac E. Weintraub

自主车辆在威胁环境中的路径规划是一个具有挑战性的问题。由于问题的非线性和非凸性质，即使是最简单的场景，传统最优控制方法也难以满足实时决策需求。针对这一难题，Qiang Le、Yaguang Yang和Isaac E. Weintraub提出了一种基于深度确定性策略梯度（DDPG）的强化学习方法。该方法将环境中的威胁建模为多个圆形禁入区。车辆一旦进入这些区域或未能到达目标附近区域，即视为任务失败。DDPG智能体通过模拟环境中的试错进行训练，学习从当前状态（位置和航向）到一系列可行动作的直接映射，从而安全抵达目的地。奖励函数的设计是该方法的核心，由三部分组成：一是以最终目的地为中心的吸引力场，引导车辆朝向目标；二是以各圆形障碍物为中心的排斥力场，使车辆避开危险；三是对控制能量消耗（即航向变化幅度）的惩罚，这间接鼓励车辆选择直线路径。通过这样的激励机制，DDPG训练智能体找出尽可能大的起始点集合，保证从这些点出发都能安全到达目标。这为任务规划提供了关键信息，能够提前判断从某一起点出发的任务是否可行，从而辅助预规划活动。研究团队在仿真环境中验证了该方法的有效性，并将其与传统的伪谱最优控制方法进行了对比。结果显示，基于学习的DDPG智能体能够生成有效的路径，同时计算速度显著更快，更适合实时应用场景。该论文发表于arXiv，编号2606.07855，包含14页和12张图，作者来自相关研究机构。