AI News HubLIVE
站内改写1 分鐘閱讀

ParkingTransformer:基於大語言模型增強的端到端自主泊車軌跡規劃

本文提出ParkingTransformer,一種結合多視角感知與大語言模型(LLM)場景理解能力的端到端自主泊車框架。該方法通過軌跡查詢與LLM隱狀態特徵直接輸出規劃軌跡,無需密集鳥瞰圖表示,並引入3D位置編碼、固定窗口流式處理機制和由粗到精的解碼策略。在CARLA模擬器和真實車輛平台上,駕駛評分達61.32,真實世界實驗平均成功率為88.70%。

來源arXiv Robotics作者: Hauteng Wu, Xu Li, Dong Kong, Zihang Wang, Xieyuanli Chen, Benwu Wang, Wenkai Zhu

自主泊車是自動駕駛領域中的關鍵任務之一,但現有端到端方法往往具有黑箱特性,缺乏高層語義理解和可解釋性,這阻礙了從道路到目標點的無縫長距離自主泊車的實現。為了解決這些侷限性,研究團隊提出了ParkingTransformer——一種利用多視角感知和大語言模型(LLM)場景理解能力的新型框架。

與傳統方法依賴密集鳥瞰圖(BEV)表示不同,ParkingTransformer通過將軌跡查詢與LLM的隱狀態特徵相結合,直接與歷史信息和原始傳感器數據交互,輸出規劃軌跡。這種設計不僅簡化了感知管線,還顯著提升了模型的語義理解和可解釋性,使決策過程更加透明。

為了彌補LLM在空間推理方面的不足,研究者引入了3D位置編碼,以顯式注入空間幾何感知。此外,還設計了一種固定窗口流式處理機制,用於高效處理歷史信息,從而大幅提升了長時序處理效率和推理速度。同時,採用由粗到精的解碼策略,逐步提高軌跡精度。這些技術創新共同構成了ParkingTransformer的核心貢獻。

在實驗驗證方面,研究團隊在CARLA模擬器上進行了大量的閉環實驗,結果顯示該方法獲得了61.32的駕駛評分。更值得關注的是,在真實車輛平台上進行的實驗中,平均成功率達到了88.70%。這些結果充分驗證了ParkingTransformer算法的可行性和有效性,為端到端自主泊車技術的發展提供了新的方向。該研究為未來將LLM更深入地集成到自動駕駛系統中奠定了基礎。