PersonaDrive:用于闭环驾驶仿真的人类风格检索增强VLA智能体
PersonaDrive是一种新框架,通过检索风格指令的人类驾驶演示来调节视觉-语言-动作(VLA)驾驶智能体,实现多样化的驾驶风格。它包括离线三元组挖掘、轻量级检索头训练和单一VLA主干微调,无需针对每种风格重新训练即可切换风格。在Bench2Drive上,无风格条件下驾驶得分提升4.6%,风格条件下每种风格均取得最高分,且保守到激进风格平均速度和加速度分别提升18%和25%。
在自动驾驶仿真领域,闭环仿真器通常使用基于规则或单一行为模式训练的智能体来填充非自车交通参与者,导致仿真环境中的驾驶员风格单一,缺乏真实世界中人类驾驶的多样性。近期的一些工作尝试通过事后标签或基于大语言模型推断的奖励权重来引入风格变化,但这些方法只是对风格奖励的近似,而不是真正按照特定风格驾驶的人类演示。为了解决这一问题,研究人员提出了PersonaDrive——一种利用人类驾驶演示的条件化视觉-语言-动作(VLA)智能体框架。
PersonaDrive的核心是一个三阶段流水线。第一阶段是离线三元组挖掘:从风格指令(激进、中性、保守)标注的人类驾驶数据中,结合图像与文本的相似度分数,挖掘出高质量的三元组。第二阶段是训练一个轻量级的检索头:该检索头融合冻结的视觉特征与一个小型控制编码器,为每种风格构建一个独立的演示数据库。第三阶段是微调单一的VLA主干网络:将检索到的上下文点作为行为演示,在路径点预测时进行上下文学习。在推理阶段,通过简单地切换检索头查询的不同风格数据库,即可改变智能体的驾驶风格,无需为每种风格重新训练模型。
在Bench2Drive基准测试中,无风格条件下的PersonaDrive相比SimLingo驾驶得分提升了4.6%,相比HiP-AD提升了2.5%。启用风格条件后,PersonaDrive在每种风格下都取得了最高驾驶得分,其最弱风格的表现仍比最强基线DMW高出5.4%。此外,从保守到激进的指令,平均速度提升了18%,加速度提升了25%。这些结果表明,PersonaDrive能够有效地为闭环仿真提供具有人类风格的多样化非自车智能体,有望提升自动驾驶测试的真实性和鲁棒性。