2026-06-01 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

基於學習的室內移動機器人導航

本文提出了一種結合監督式神經全域性規劃器和學習型DWA區域性規劃器的室內移動機器人導航框架。全域性規劃器透過成本感知的A*專家軌跡訓練，區域性規劃器採用行為克隆初始訓練後經PPO強化學習最佳化。在模擬和真實環境中的實驗表明，該方法能夠生成可行的全域性路徑和可靠的區域性運動指令，實現安全的避障導航。原始碼將公開發布。

來源arXiv Robotics作者: Tri-Tin Nguyen, Tien-Dat Nguyen, Gia-Uy Le, Vinh Nguyen, Vinh-Hao Nguyen

一篇新研究論文提出了一個基於學習的室內移動機器人導航框架，該框架將監督式神經全域性規劃器與強化學習最佳化的動態視窗法（DWA）區域性規劃器相結合，旨在實現安全、高效的避障導航。該框架的核心創新在於其雙層規劃結構：全域性層面，研究人員採用成本感知的A*演算法生成專家軌跡，並以此訓練一個監督式神經網路，使其能夠規劃出從起點到目標點的可行全域性路徑；區域性層面，他們提出了一種學習型DWA規劃器，將區域性運動規劃問題建模為在DWA動作空間上的離散候選選擇問題。該區域性規劃器首先透過行為克隆（behavior cloning）進行初步訓練，模仿專家演示，隨後使用近端策略最佳化（PPO）演算法進行精煉，同時引入了可行性感知掩碼，以確保生成的命令不會導致碰撞或違反運動學約束。這種結合方式使得區域性規劃器能夠在複雜動態環境中做出快速且安全的決策。

研究團隊在模擬環境和真實室內場景中對該框架進行了全面測試。模擬實驗使用多種室內環境佈局和障礙物配置，評估了全域性路徑的可行性和區域性運動指令的可靠性。真實世界實驗則在一臺配備雷射雷達和里程計的差速驅動移動機器人平臺上進行，測試場景包括走廊、房間和傢俱障礙物。實驗結果顯示，該框架不僅能夠生成平滑的全域性路徑，還能在動態障礙物（如行人）出現時輸出可靠的低層運動指令，實現了安全的目標導向導航。與傳統的基於規則的方法相比，學習型區域性規劃器在應對未知場景時表現出更高的靈活性和適應性，例如能夠更平滑地繞開突然出現的障礙物。此外，論文還進行了消融研究，驗證了可行性掩碼和PPO微調對效能提升的貢獻。

作者表示，該工作證明了將學習型全域性規劃與強化學習最佳化的區域性控制相結合的巨大潛力，為室內移動機器人的自主導航提供了一種有效且實用的方案。該方法的模組化設計也便於後續擴充套件和整合到其他機器人系統中。相關原始碼計劃在專案網站（https://ntdathp.github.io/rl_robot_web/）上釋出，供業界和學術界參考使用，這將有助於推動該領域的研究進展和應用落地。