自適應引導何時有所幫助?面向部分可觀測自動駕駛的信念感知特權蒸餾
本文提出信念感知GSAC(BA-GSAC),透過整合不一致性動態調節蒸餾係數λ,系統研究了自適應引導在部分可觀測自動駕駛中的有效性。實驗發現,在輕度至中度部分可觀測條件下自適應引導有益,但在嚴重遮擋下自適應係數快速退化,原因是整合模型僅基於部分觀測預測,無法感知缺失資訊。改進方案是使用全狀態預測訓練整合模型。研究表明,簡單的線性衰減排程在嚴重POMDP下表現最佳,穩定性收益主要來自排程策略而非自適應機制。
文章情報
要點
- BA-GSAC透過整合不一致性動態調節蒸餾係數,用於自動駕駛中的知識蒸餾。
- 自適應引導在輕度至中度部分可觀測條件下有效,但在嚴重遮擋下失效,稱為“可觀測性盲區”。
- 簡單線性衰減排程在嚴重POMDP下效能最優,穩定性收益主要源於排程策略。
- 建議使用全狀態預測訓練整合模型,以提升不確定性感知能力。
為什麼重要
這條新聞值得關注,因為BA-GSAC透過整合不一致性動態調節蒸餾係數,用於自動駕駛中的知識蒸餾。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
在自動駕駛領域,車輛通常只能獲取部分環境觀測,而控制策略往往需要完整狀態資訊。引導軟演員-評論家演算法(GSAC)透過特權教師網路將全狀態知識蒸餾至部分觀測的學生網路,但蒸餾係數λ固定不變,無法適應代理的不確定性。最新研究《Belief-Aware GSAC》針對此問題提出自適應機制:利用整合網路的不一致性動態調整蒸餾係數λ,以在代理高不確定性時加強引導,低不確定性時減少干預。
研究者在Highway-Env平臺上設計了系統的實驗,比較五種策略(固定λ=0.01、固定λ=0.1、自適應、線性衰減以及無引導的SAC)在三種部分可觀測馬爾可夫決策過程(POMDP)難度下的表現。初步單種子實驗顯示,在輕度至中度部分可觀測條件下,自適應引導優於固定策略。然而,在嚴重遮擋場景下(所有方法使用3個種子評估),自適應係數在大約3000步內迅速降至最小值λ_min,導致引導失效。
該研究將這一失敗歸因於“可觀測性盲區”現象:整合網路基於部分觀測進行預測,即使在嚴重遮擋下也能保持較低的不一致性,因為它只能建模可見資訊,無法感知缺失的但關鍵的狀態。為解決該問題,作者提出一種架構改進:使用特權教師的全狀態預測訓練整合網路,使其能夠感知觀測盲區。雖然這一改進尚未在本工作中驗證,但現有實驗已展示出積極訊號——在預熱階段,自適應機制提供了可測量的穩定性提升(變異係數CV=13.3%對固定λ=0.01的29.8%)。
令人意外的是,最簡單的確定性線性衰減排程在所有指標上取得了最優的嚴重POMDP效能(平均回合獎勵116.5,CV=8.9%),這表明穩定性收益主要來自排程策略本身,而非自適應整合機制。這一發現為設計不確定性感知的師生框架提供了實用指導,並強調了整合預測目標選擇的重要性。該工作已被CVPR 2026自動駕駛研討會(WAD)接收。