2026-05-27 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

自適應引導何時有所幫助？面向部分可觀測自動駕駛的信念感知特權蒸餾

本文提出信念感知GSAC（BA-GSAC），通過集成不一致性動態調節蒸餾係數λ，系統研究了自適應引導在部分可觀測自動駕駛中的有效性。實驗發現，在輕度至中度部分可觀測條件下自適應引導有益，但在嚴重遮擋下自適應係數快速退化，原因是集成模型僅基於部分觀測預測，無法感知缺失信息。改進方案是使用全狀態預測訓練集成模型。研究表明，簡單的線性衰減調度在嚴重POMDP下表現最佳，穩定性收益主要來自調度策略而非自適應機制。

來源arXiv Robotics作者: Mehmet Haklidir

在自動駕駛領域，車輛通常只能獲取部分環境觀測，而控制策略往往需要完整狀態信息。引導軟演員-評論家算法（GSAC）通過特權教師網絡將全狀態知識蒸餾至部分觀測的學生網絡，但蒸餾係數λ固定不變，無法適應代理的不確定性。最新研究《Belief-Aware GSAC》針對此問題提出自適應機制：利用集成網絡的不一致性動態調整蒸餾係數λ，以在代理高不確定性時加強引導，低不確定性時減少干預。

研究者在Highway-Env平台上設計了系統的實驗，比較五種策略（固定λ=0.01、固定λ=0.1、自適應、線性衰減以及無引導的SAC）在三種部分可觀測馬爾可夫決策過程（POMDP）難度下的表現。初步單種子實驗顯示，在輕度至中度部分可觀測條件下，自適應引導優於固定策略。然而，在嚴重遮擋場景下（所有方法使用3個種子評估），自適應係數在大約3000步內迅速降至最小值λ_min，導致引導失效。

該研究將這一失敗歸因於“可觀測性盲區”現象：集成網絡基於部分觀測進行預測，即使在嚴重遮擋下也能保持較低的不一致性，因為它只能建模可見信息，無法感知缺失的但關鍵的狀態。為解決該問題，作者提出一種架構改進：使用特權教師的全狀態預測訓練集成網絡，使其能夠感知觀測盲區。雖然這一改進尚未在本工作中驗證，但現有實驗已展示出積極信號——在預熱階段，自適應機制提供了可測量的穩定性提升（變異係數CV=13.3%對固定λ=0.01的29.8%）。

令人意外的是，最簡單的確定性線性衰減調度在所有指標上取得了最優的嚴重POMDP性能（平均回合獎勵116.5，CV=8.9%），這表明穩定性收益主要來自調度策略本身，而非自適應集成機制。這一發現為設計不確定性感知的師生框架提供了實用指導，並強調了集成預測目標選擇的重要性。該工作已被CVPR 2026自動駕駛研討會（WAD）接收。