2026-06-01 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

基于学习的室内移动机器人导航

本文提出了一种结合监督式神经全局规划器和学习型DWA局部规划器的室内移动机器人导航框架。全局规划器通过成本感知的A*专家轨迹训练，局部规划器采用行为克隆初始训练后经PPO强化学习优化。在仿真和真实环境中的实验表明，该方法能够生成可行的全局路径和可靠的局部运动指令，实现安全的避障导航。源代码将公开发布。

来源arXiv Robotics作者: Tri-Tin Nguyen, Tien-Dat Nguyen, Gia-Uy Le, Vinh Nguyen, Vinh-Hao Nguyen

一篇新研究论文提出了一个基于学习的室内移动机器人导航框架，该框架将监督式神经全局规划器与强化学习优化的动态窗口法（DWA）局部规划器相结合，旨在实现安全、高效的避障导航。该框架的核心创新在于其双层规划结构：全局层面，研究人员采用成本感知的A*算法生成专家轨迹，并以此训练一个监督式神经网络，使其能够规划出从起点到目标点的可行全局路径；局部层面，他们提出了一种学习型DWA规划器，将局部运动规划问题建模为在DWA动作空间上的离散候选选择问题。该局部规划器首先通过行为克隆（behavior cloning）进行初步训练，模仿专家演示，随后使用近端策略优化（PPO）算法进行精炼，同时引入了可行性感知掩码，以确保生成的命令不会导致碰撞或违反运动学约束。这种结合方式使得局部规划器能够在复杂动态环境中做出快速且安全的决策。

研究团队在仿真环境和真实室内场景中对该框架进行了全面测试。仿真实验使用多种室内环境布局和障碍物配置，评估了全局路径的可行性和局部运动指令的可靠性。真实世界实验则在一台配备激光雷达和里程计的差速驱动移动机器人平台上进行，测试场景包括走廊、房间和家具障碍物。实验结果显示，该框架不仅能够生成平滑的全局路径，还能在动态障碍物（如行人）出现时输出可靠的低层运动指令，实现了安全的目标导向导航。与传统的基于规则的方法相比，学习型局部规划器在应对未知场景时表现出更高的灵活性和适应性，例如能够更平滑地绕开突然出现的障碍物。此外，论文还进行了消融研究，验证了可行性掩码和PPO微调对性能提升的贡献。

作者表示，该工作证明了将学习型全局规划与强化学习优化的局部控制相结合的巨大潜力，为室内移动机器人的自主导航提供了一种有效且实用的方案。该方法的模块化设计也便于后续扩展和集成到其他机器人系统中。相关源代码计划在项目网站（https://ntdathp.github.io/rl_robot_web/）上发布，供业界和学术界参考使用，这将有助于推动该领域的研究进展和应用落地。