2026-05-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

行为诱导的镜像近端时间差分学习：加速离策略预测

本文提出了一种名为STHTD-MP的行为诱导镜像近端时间差分方法，通过用行为策略贝尔曼矩阵的对称部分替换协方差度量，改善了离策略预测的收敛速度。理论分析和数值实验表明，该方法在多项基准测试中优于现有的GTD2-MP方法。

来源arXiv AI作者: Xingguo Chen, Yuchen Shen, Shangdong Yang, Chao Li, Guang Yang, Wenhao Wang

近年来，梯度时间差分方法在离策略预测任务中展现出稳定性，但其性能严重依赖于辅助变量度量所诱导的几何结构。传统的镜像近端TD方法通常采用特征协方差度量，而混合TD方法则提示行为策略的转移信息能提供更具信息量的更新几何。针对这一挑战，Xingguo Chen等研究者提出了一种名为STHTD-MP的行为诱导镜像近端时间差分方法。

STHTD-MP的核心创新在于将原始-对偶鞍点公式中的协方差度量替换为行为策略贝尔曼矩阵的对称部分。该方法为原始变量和辅助变量保持单一学习率，并对得到的混合鞍点算子应用镜像近端预测-校正步骤。研究者提供了严格的收敛性分析：在标准随机逼近假设下，行为诱导度量正定、联合平均系统Hurwitz稳定、有界性通过Lyapunov参数证明，随机递归通过ODE方法收敛。

进一步地，研究者推导了投影预言机遍历间隙界，并基于确定性镜像近端误差矩阵的谱半径与GTD2-MP进行了精确均值算子比较。分析表明，当行为诱导度量改善鞍点几何时，STHTD-MP的平均收缩因子可能小于GTD2-MP。在双状态、随机游走和Boyan链基准上的精确数值均值算子分析支持了这一条件，而Baird反例被识别为严格假设不成立的奇异边界情况。

这项研究为离策略强化学习中的值函数估计提供了新的几何视角，有望在样本效率方面带来显著提升。该工作已被arXiv收录，论文编号2605.28849。作者包括Xingguo Chen等六位研究者，论文于2026年5月16日提交。实验表明，STHTD-MP在多种常见基准上均取得了更快的收敛速度，这对于实际应用中的离策略评估具有重要意义。未来工作可以进一步探索行为诱导度量在其他强化学习任务中的潜力。