脱轨:利用违反安全的对抗性扰动劫持生成式端到端驾驶规划器的评分头
研究人员提出了Derail,一种对抗性攻击框架,专门针对生成式端到端自动驾驶规划器的评分头。该攻击能使安全轨迹选择被颠覆,评分下降39%-80%,碰撞率高达50%,凸显了评分头推断模式是值得防御的关键攻击面。
一篇最新的研究论文揭示了一种名为“Derail”的新型对抗性攻击框架,该框架专门针对当前流行的生成式端到端自动驾驶规划器中的评分头。这些规划器采用扩散去噪或词汇检索等生成模型来解码轨迹,尽管架构多样,但都遵循一个共同的推断模式:使用一个或多个学习得到的评分头,基于鸟瞰图特征对一组固定候选轨迹(如锚点、词汇条目或提议查询)进行评分,并选择得分最高的轨迹作为最终输出。
在这种设计下,评分头成为感知与运动指令之间的唯一屏障。然而,研究人员发现,评分头在竞争候选之间的决策边界往往很小,这为对抗性攻击提供了可乘之机。Derail攻击通过精心设计的微小扰动,能够有效颠覆评分头的决策,使规划器从安全轨迹转向不安全轨迹。实验结果表明,当前多种先进的生成式规划器均难以抵御这种攻击,评分下降幅度达39%至80%,碰撞率最高可达50%,远超传统的损失最大化或特征发散攻击。
论文进一步分析指出,违反安全的目标是决定攻击效果的关键因素。这意味着,即使攻击者没有直接修改规划器的内部参数,仅仅通过影响评分头的判断,就能导致灾难性的后果。这一发现对自动驾驶安全性提出了严峻挑战,并表明现有的防御机制可能不足。研究人员呼吁,自动驾驶社区应将评分头推断模式视为一个反复出现的攻击面,并投入明确的防御性考虑,例如通过增强评分头的鲁棒性或引入额外的安全验证机制。
该研究由Halima Bouzidi等人完成,详细内容可在arXiv预印本中查阅(论文编号:2606.30807)。随着生成式规划器在自动驾驶中的快速应用,这一工作为安全部署提供了重要警示和方向。