2026-05-27 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

自适应引导何时有所帮助？面向部分可观测自动驾驶的信念感知特权蒸馏

本文提出信念感知GSAC（BA-GSAC），通过集成不一致性动态调节蒸馏系数λ，系统研究了自适应引导在部分可观测自动驾驶中的有效性。实验发现，在轻度至中度部分可观测条件下自适应引导有益，但在严重遮挡下自适应系数快速退化，原因是集成模型仅基于部分观测预测，无法感知缺失信息。改进方案是使用全状态预测训练集成模型。研究表明，简单的线性衰减调度在严重POMDP下表现最佳，稳定性收益主要来自调度策略而非自适应机制。

来源arXiv Robotics作者: Mehmet Haklidir

在自动驾驶领域，车辆通常只能获取部分环境观测，而控制策略往往需要完整状态信息。引导软演员-评论家算法（GSAC）通过特权教师网络将全状态知识蒸馏至部分观测的学生网络，但蒸馏系数λ固定不变，无法适应代理的不确定性。最新研究《Belief-Aware GSAC》针对此问题提出自适应机制：利用集成网络的不一致性动态调整蒸馏系数λ，以在代理高不确定性时加强引导，低不确定性时减少干预。

研究者在Highway-Env平台上设计了系统的实验，比较五种策略（固定λ=0.01、固定λ=0.1、自适应、线性衰减以及无引导的SAC）在三种部分可观测马尔可夫决策过程（POMDP）难度下的表现。初步单种子实验显示，在轻度至中度部分可观测条件下，自适应引导优于固定策略。然而，在严重遮挡场景下（所有方法使用3个种子评估），自适应系数在大约3000步内迅速降至最小值λ_min，导致引导失效。

该研究将这一失败归因于“可观测性盲区”现象：集成网络基于部分观测进行预测，即使在严重遮挡下也能保持较低的不一致性，因为它只能建模可见信息，无法感知缺失的但关键的状态。为解决该问题，作者提出一种架构改进：使用特权教师的全状态预测训练集成网络，使其能够感知观测盲区。虽然这一改进尚未在本工作中验证，但现有实验已展示出积极信号——在预热阶段，自适应机制提供了可测量的稳定性提升（变异系数CV=13.3%对固定λ=0.01的29.8%）。

令人意外的是，最简单的确定性线性衰减调度在所有指标上取得了最优的严重POMDP性能（平均回合奖励116.5，CV=8.9%），这表明稳定性收益主要来自调度策略本身，而非自适应集成机制。这一发现为设计不确定性感知的师生框架提供了实用指导，并强调了集成预测目标选择的重要性。该工作已被CVPR 2026自动驾驶研讨会（WAD）接收。