2026-06-17站内改写1 分钟阅读更新: 2026-06-17

ParkingTransformer：基于大语言模型增强的端到端自主泊车轨迹规划

本文提出ParkingTransformer，一种结合多视角感知与大语言模型（LLM）场景理解能力的端到端自主泊车框架。该方法通过轨迹查询与LLM隐状态特征直接输出规划轨迹，无需密集鸟瞰图表示，并引入3D位置编码、固定窗口流式处理机制和由粗到精的解码策略。在CARLA模拟器和真实车辆平台上，驾驶评分达61.32，真实世界实验平均成功率为88.70%。

来源arXiv Robotics作者: Hauteng Wu, Xu Li, Dong Kong, Zihang Wang, Xieyuanli Chen, Benwu Wang, Wenkai Zhu

自主泊车是自动驾驶领域中的关键任务之一，但现有端到端方法往往具有黑箱特性，缺乏高层语义理解和可解释性，这阻碍了从道路到目标点的无缝长距离自主泊车的实现。为了解决这些局限性，研究团队提出了ParkingTransformer——一种利用多视角感知和大语言模型（LLM）场景理解能力的新型框架。

与传统方法依赖密集鸟瞰图（BEV）表示不同，ParkingTransformer通过将轨迹查询与LLM的隐状态特征相结合，直接与历史信息和原始传感器数据交互，输出规划轨迹。这种设计不仅简化了感知管线，还显著提升了模型的语义理解和可解释性，使决策过程更加透明。

为了弥补LLM在空间推理方面的不足，研究者引入了3D位置编码，以显式注入空间几何感知。此外，还设计了一种固定窗口流式处理机制，用于高效处理历史信息，从而大幅提升了长时序处理效率和推理速度。同时，采用由粗到精的解码策略，逐步提高轨迹精度。这些技术创新共同构成了ParkingTransformer的核心贡献。

在实验验证方面，研究团队在CARLA模拟器上进行了大量的闭环实验，结果显示该方法获得了61.32的驾驶评分。更值得关注的是，在真实车辆平台上进行的实验中，平均成功率达到了88.70%。这些结果充分验证了ParkingTransformer算法的可行性和有效性，为端到端自主泊车技术的发展提供了新的方向。该研究为未来将LLM更深入地集成到自动驾驶系统中奠定了基础。