2026-06-17站内改写1 分鐘閱讀更新: 2026-06-17

ParkingTransformer：基於大語言模型增強的端到端自主泊車軌跡規劃

本文提出ParkingTransformer，一種結合多視角感知與大語言模型（LLM）場景理解能力的端到端自主泊車框架。該方法通過軌跡查詢與LLM隱狀態特徵直接輸出規劃軌跡，無需密集鳥瞰圖表示，並引入3D位置編碼、固定窗口流式處理機制和由粗到精的解碼策略。在CARLA模擬器和真實車輛平台上，駕駛評分達61.32，真實世界實驗平均成功率為88.70%。

來源arXiv Robotics作者: Hauteng Wu, Xu Li, Dong Kong, Zihang Wang, Xieyuanli Chen, Benwu Wang, Wenkai Zhu

自主泊車是自動駕駛領域中的關鍵任務之一，但現有端到端方法往往具有黑箱特性，缺乏高層語義理解和可解釋性，這阻礙了從道路到目標點的無縫長距離自主泊車的實現。為了解決這些侷限性，研究團隊提出了ParkingTransformer——一種利用多視角感知和大語言模型（LLM）場景理解能力的新型框架。

與傳統方法依賴密集鳥瞰圖（BEV）表示不同，ParkingTransformer通過將軌跡查詢與LLM的隱狀態特徵相結合，直接與歷史信息和原始傳感器數據交互，輸出規劃軌跡。這種設計不僅簡化了感知管線，還顯著提升了模型的語義理解和可解釋性，使決策過程更加透明。

為了彌補LLM在空間推理方面的不足，研究者引入了3D位置編碼，以顯式注入空間幾何感知。此外，還設計了一種固定窗口流式處理機制，用於高效處理歷史信息，從而大幅提升了長時序處理效率和推理速度。同時，採用由粗到精的解碼策略，逐步提高軌跡精度。這些技術創新共同構成了ParkingTransformer的核心貢獻。

在實驗驗證方面，研究團隊在CARLA模擬器上進行了大量的閉環實驗，結果顯示該方法獲得了61.32的駕駛評分。更值得關注的是，在真實車輛平台上進行的實驗中，平均成功率達到了88.70%。這些結果充分驗證了ParkingTransformer算法的可行性和有效性，為端到端自主泊車技術的發展提供了新的方向。該研究為未來將LLM更深入地集成到自動駕駛系統中奠定了基礎。