2026-07-01 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-01 16:18 UTC+8

脫軌：利用違反安全的對抗性擾動劫持生成式端到端駕駛規劃器的評分頭

研究人員提出了Derail，一種對抗性攻擊框架，專門針對生成式端到端自動駕駛規劃器的評分頭。該攻擊能使安全軌跡選擇被顛覆，評分下降39%-80%，碰撞率高達50%，凸顯了評分頭推斷模式是值得防禦的關鍵攻擊面。

來源arXiv Robotics作者: Halima Bouzidi, Mboutidem Ekemini Mkpong, Haoyu Liu, Mohammad Abdullah Al Faruque

一篇最新的研究論文揭示了一種名為“Derail”的新型對抗性攻擊框架，該框架專門針對當前流行的生成式端到端自動駕駛規劃器中的評分頭。這些規劃器採用擴散去噪或詞彙檢索等生成模型來解碼軌跡，儘管架構多樣，但都遵循一個共同的推斷模式：使用一個或多個學習得到的評分頭，基於鳥瞰圖特徵對一組固定候選軌跡（如錨點、詞彙條目或提議查詢）進行評分，並選擇得分最高的軌跡作為最終輸出。

在這種設計下，評分頭成為感知與運動指令之間的唯一屏障。然而，研究人員發現，評分頭在競爭候選之間的決策邊界往往很小，這為對抗性攻擊提供了可乘之機。Derail攻擊透過精心設計的微小擾動，能夠有效顛覆評分頭的決策，使規劃器從安全軌跡轉向不安全軌跡。實驗結果表明，當前多種先進的生成式規劃器均難以抵禦這種攻擊，評分下降幅度達39%至80%，碰撞率最高可達50%，遠超傳統的損失最大化或特徵發散攻擊。

論文進一步分析指出，違反安全的目標是決定攻擊效果的關鍵因素。這意味著，即使攻擊者沒有直接修改規劃器的內部引數，僅僅透過影響評分頭的判斷，就能導致災難性的後果。這一發現對自動駕駛安全性提出了嚴峻挑戰，並表明現有的防禦機制可能不足。研究人員呼籲，自動駕駛社群應將評分頭推斷模式視為一個反覆出現的攻擊面，並投入明確的防禦性考慮，例如透過增強評分頭的魯棒性或引入額外的安全驗證機制。

該研究由Halima Bouzidi等人完成，詳細內容可在arXiv預印本中查閱（論文編號：2606.30807）。隨著生成式規劃器在自動駕駛中的快速應用，這一工作為安全部署提供了重要警示和方向。