2026-06-01 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

基於學習的室內移動機器人導航

本文提出了一種結合監督式神經全局規劃器和學習型DWA局部規劃器的室內移動機器人導航框架。全局規劃器通過成本感知的A*專家軌跡訓練，局部規劃器採用行為克隆初始訓練後經PPO強化學習優化。在仿真和真實環境中的實驗表明，該方法能夠生成可行的全局路徑和可靠的局部運動指令，實現安全的避障導航。源代碼將公開發布。

來源arXiv Robotics作者: Tri-Tin Nguyen, Tien-Dat Nguyen, Gia-Uy Le, Vinh Nguyen, Vinh-Hao Nguyen

一篇新研究論文提出了一個基於學習的室內移動機器人導航框架，該框架將監督式神經全局規劃器與強化學習優化的動態窗口法（DWA）局部規劃器相結合，旨在實現安全、高效的避障導航。該框架的核心創新在於其雙層規劃結構：全局層面，研究人員採用成本感知的A*算法生成專家軌跡，並以此訓練一個監督式神經網絡，使其能夠規劃出從起點到目標點的可行全局路徑；局部層面，他們提出了一種學習型DWA規劃器，將局部運動規劃問題建模為在DWA動作空間上的離散候選選擇問題。該局部規劃器首先通過行為克隆（behavior cloning）進行初步訓練，模仿專家演示，隨後使用近端策略優化（PPO）算法進行精煉，同時引入了可行性感知掩碼，以確保生成的命令不會導致碰撞或違反運動學約束。這種結合方式使得局部規劃器能夠在複雜動態環境中做出快速且安全的決策。

研究團隊在仿真環境和真實室內場景中對該框架進行了全面測試。仿真實驗使用多種室內環境佈局和障礙物配置，評估了全局路徑的可行性和局部運動指令的可靠性。真實世界實驗則在一台配備激光雷達和里程計的差速驅動移動機器人平台上進行，測試場景包括走廊、房間和傢俱障礙物。實驗結果顯示，該框架不僅能夠生成平滑的全局路徑，還能在動態障礙物（如行人）出現時輸出可靠的低層運動指令，實現了安全的目標導向導航。與傳統的基於規則的方法相比，學習型局部規劃器在應對未知場景時表現出更高的靈活性和適應性，例如能夠更平滑地繞開突然出現的障礙物。此外，論文還進行了消融研究，驗證了可行性掩碼和PPO微調對性能提升的貢獻。

作者表示，該工作證明了將學習型全局規劃與強化學習優化的局部控制相結合的巨大潛力，為室內移動機器人的自主導航提供了一種有效且實用的方案。該方法的模塊化設計也便於後續擴展和集成到其他機器人系統中。相關源代碼計劃在項目網站（https://ntdathp.github.io/rl_robot_web/）上發佈，供業界和學術界參考使用，這將有助於推動該領域的研究進展和應用落地。