2026-05-28 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

面向异构仿真环境的联邦强化学习个性化观测归一化方法

本文提出个性化观测归一化（PON）方法，用于解决联邦强化学习在异构环境中因状态转移动态不同导致的输入分布差异和参数更新不平衡问题。每个智能体使用持续更新的运行均值和方差对原始状态输入进行本地归一化，确保特征缩放一致且不相互掩盖。实验证明，共享归一化参数无效，PON在异构MuJoCo任务中加速训练并取得更优性能。该论文已被IJCNN 2025接收。

来源arXiv Machine Learning作者: Yiran Pang, Zhen Ni, Xiangnan Zhong

联邦强化学习（Federated Reinforcement Learning, FedRL）允许多个智能体在不共享原始数据的情况下协作训练全局策略，这对于隐私敏感的应用场景（如自动驾驶、机器人协作等）至关重要。然而，当各智能体所处的环境存在异构性时，即它们的状态转移动态不同，FedRL会面临严峻挑战。具体而言，不同的动态特性导致各智能体的输入分布不一致，同时在参数聚合过程中产生更新不均衡的问题，从而影响全局策略的收敛速度和最终性能。针对这一难题，来自某研究团队的最新论文提出了个性化观测归一化（Personalized Observation Normalization, PON）方法。

PON的核心思想非常直观：让每个智能体在自己的本地环境中，利用持续更新的运行均值和运行方差对原始状态输入进行归一化处理。这种本地归一化确保了每个智能体观测到的特征在聚合到全局模型时具有一致的尺度，同时避免了不同智能体之间的特征相互掩盖。研究团队通过理论分析和实验进一步表明，由于各智能体的本地输入分布高度多样化，跨智能体共享归一化参数是无效的，这反而可能损害性能，从而印证了个性化统计量的必要性。

为了验证PON的有效性，研究团队在异构MuJoCo仿真任务上进行了广泛的实验。这些任务模拟了不同动力学特性的机器人控制场景，例如机器人关节参数或摩擦系数存在差异。实验结果显示，与多种基线方法（包括无归一化、共享归一化等）相比，PON能够显著加速训练过程，并在多个任务上取得更优的任务表现。该论文已被国际神经网络联合会议（International Joint Conference on Neural Networks, IJCNN）2025接收，并于2026年4月10日提交至arXiv预印本平台（编号2605.27385）。论文所属学科为机器学习（cs.LG）和人工智能（cs.AI），这标志着该工作在学术界获得了初步认可。

这项研究对于联邦强化学习在真实异构环境中的应用具有重要意义。随着隐私保护意识增强和联邦学习框架的普及，PON提供了一种简单而有效的预处理手段，有望推动FedRL在机器人、自动驾驶、工业控制等领域的实际部署。未来，研究者还可以探索将PON与其他联邦学习优化技术（如梯度压缩、通信效率改进）相结合，以进一步提升性能和实用性。