2026-05-27 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

自適應引導何時有所幫助？面向部分可觀測自動駕駛的信念感知特權蒸餾

本文提出信念感知GSAC（BA-GSAC），透過整合不一致性動態調節蒸餾係數λ，系統研究了自適應引導在部分可觀測自動駕駛中的有效性。實驗發現，在輕度至中度部分可觀測條件下自適應引導有益，但在嚴重遮擋下自適應係數快速退化，原因是整合模型僅基於部分觀測預測，無法感知缺失資訊。改進方案是使用全狀態預測訓練整合模型。研究表明，簡單的線性衰減排程在嚴重POMDP下表現最佳，穩定性收益主要來自排程策略而非自適應機制。

來源arXiv Robotics作者: Mehmet Haklidir

在自動駕駛領域，車輛通常只能獲取部分環境觀測，而控制策略往往需要完整狀態資訊。引導軟演員-評論家演算法（GSAC）透過特權教師網路將全狀態知識蒸餾至部分觀測的學生網路，但蒸餾係數λ固定不變，無法適應代理的不確定性。最新研究《Belief-Aware GSAC》針對此問題提出自適應機制：利用整合網路的不一致性動態調整蒸餾係數λ，以在代理高不確定性時加強引導，低不確定性時減少干預。

研究者在Highway-Env平臺上設計了系統的實驗，比較五種策略（固定λ=0.01、固定λ=0.1、自適應、線性衰減以及無引導的SAC）在三種部分可觀測馬爾可夫決策過程（POMDP）難度下的表現。初步單種子實驗顯示，在輕度至中度部分可觀測條件下，自適應引導優於固定策略。然而，在嚴重遮擋場景下（所有方法使用3個種子評估），自適應係數在大約3000步內迅速降至最小值λ_min，導致引導失效。

該研究將這一失敗歸因於“可觀測性盲區”現象：整合網路基於部分觀測進行預測，即使在嚴重遮擋下也能保持較低的不一致性，因為它只能建模可見資訊，無法感知缺失的但關鍵的狀態。為解決該問題，作者提出一種架構改進：使用特權教師的全狀態預測訓練整合網路，使其能夠感知觀測盲區。雖然這一改進尚未在本工作中驗證，但現有實驗已展示出積極訊號——在預熱階段，自適應機制提供了可測量的穩定性提升（變異係數CV=13.3%對固定λ=0.01的29.8%）。

令人意外的是，最簡單的確定性線性衰減排程在所有指標上取得了最優的嚴重POMDP效能（平均回合獎勵116.5，CV=8.9%），這表明穩定性收益主要來自排程策略本身，而非自適應整合機制。這一發現為設計不確定性感知的師生框架提供了實用指導，並強調了整合預測目標選擇的重要性。該工作已被CVPR 2026自動駕駛研討會（WAD）接收。