行为感知的离线策略时序差分预测辅助修正
本文提出行为感知辅助修正,以稳定离线策略时序差分学习。通过用行为贝尔曼矩阵替代辅助协方差矩阵,作者引入BA-TDC和BA-TDRC算法。理论分析证明了不动点保持和几乎必然收敛。在标准基准上的实验表明,行为感知替换可提高性能,但正则化对稳健结果必要。
文章情报
要点
- 行为感知辅助修正提高了离线策略TD学习的稳定性。
- BA-TDC和BA-TDRC用行为贝尔曼矩阵替代辅助协方差矩阵。
- 在Hurwitz稳定性条件下提供了理论收敛保证。
- 在反例和随机游走上的实验显示了有效性。
为什么重要
这条新闻值得关注,因为行为感知辅助修正提高了离线策略TD学习的稳定性。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
在离线策略时间差分学习中,函数近似可能导致不稳定性。TDC算法通过辅助协方差修正来稳定,而TDRC进一步在单时间尺度递归中正则化该修正。本文研究了在线性预测设置下,用行为贝尔曼矩阵替代辅助协方差矩阵的几何结构,提出了BA-TDC和BA-TDRC算法。这种两步骤构建分离了行为感知几何和正则化的贡献。线性分析为神经网络值近似中的辅助几何设计问题提供了可处理模型,其中特征协方差和时间转移矩阵共同影响最后一层的修正动力学。作者给出了有限状态均值系统公式,在均值系统的Hurwitz稳定性条件下证明了不动点保持和几乎必然收敛,并通过精确线性误差递归的谱半径比较了确定性均值速率。在二状态反例、Baird反例、随机游走和Boyan链上的实验表明,行为感知替换本身在某些任务上非常有益,但正则化对于在更困难设置下获得稳健性能是必要的。该工作为离线策略强化学习中的稳定训练提供了新的理论工具和实践指导。此外,该研究还揭示了行为感知几何与正则化之间的相互作用,为未来在深度强化学习中的应用奠定了基础。通过分离不同贡献来源,BA-TDC和BA-TDRC不仅提升了收敛速度,还增强了算法的可解释性。实验部分详细展示了在不同难度任务上的表现差异,强调了正则化在复杂环境中的关键作用。总体而言,这项研究为处理离线策略学习中的不稳定性问题提供了创新的解决方案,并有望推动相关领域的进一步发展。