AI News HubLIVE
站内改写1 分钟阅读

ParkingTransformer:基于大语言模型增强的端到端自主泊车轨迹规划

本文提出ParkingTransformer,一种结合多视角感知与大语言模型(LLM)场景理解能力的端到端自主泊车框架。该方法通过轨迹查询与LLM隐状态特征直接输出规划轨迹,无需密集鸟瞰图表示,并引入3D位置编码、固定窗口流式处理机制和由粗到精的解码策略。在CARLA模拟器和真实车辆平台上,驾驶评分达61.32,真实世界实验平均成功率为88.70%。

来源arXiv Robotics作者: Hauteng Wu, Xu Li, Dong Kong, Zihang Wang, Xieyuanli Chen, Benwu Wang, Wenkai Zhu

自主泊车是自动驾驶领域中的关键任务之一,但现有端到端方法往往具有黑箱特性,缺乏高层语义理解和可解释性,这阻碍了从道路到目标点的无缝长距离自主泊车的实现。为了解决这些局限性,研究团队提出了ParkingTransformer——一种利用多视角感知和大语言模型(LLM)场景理解能力的新型框架。

与传统方法依赖密集鸟瞰图(BEV)表示不同,ParkingTransformer通过将轨迹查询与LLM的隐状态特征相结合,直接与历史信息和原始传感器数据交互,输出规划轨迹。这种设计不仅简化了感知管线,还显著提升了模型的语义理解和可解释性,使决策过程更加透明。

为了弥补LLM在空间推理方面的不足,研究者引入了3D位置编码,以显式注入空间几何感知。此外,还设计了一种固定窗口流式处理机制,用于高效处理历史信息,从而大幅提升了长时序处理效率和推理速度。同时,采用由粗到精的解码策略,逐步提高轨迹精度。这些技术创新共同构成了ParkingTransformer的核心贡献。

在实验验证方面,研究团队在CARLA模拟器上进行了大量的闭环实验,结果显示该方法获得了61.32的驾驶评分。更值得关注的是,在真实车辆平台上进行的实验中,平均成功率达到了88.70%。这些结果充分验证了ParkingTransformer算法的可行性和有效性,为端到端自主泊车技术的发展提供了新的方向。该研究为未来将LLM更深入地集成到自动驾驶系统中奠定了基础。