2026-06-02 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

强化学习在机电系统参数辨识中的最优实验设计

该论文提出一种强化学习代理，用于为机电系统的系统辨识生成最优激励信号，并在Quanser Aero 2测试平台上验证，实现了高估计精度且仅0.75%的安全违规。

来源arXiv Robotics作者: Julian Langschwert, Georg Schaefer, Jakob Rehrl, Stefan Huber, Simon Hirlaender

在机电系统的系统辨识中，激励信号的质量直接影响参数估计的准确性。传统的系统辨识方法依赖于专家知识和手动设计的信号，不仅需要保证信息丰富度，还需考虑硬件安全约束，如电机电流限幅、位置极限等。这些约束限制了方法的通用性和可重复性。近日，来自奥地利的研究团队在论文“Reinforcement Learning for Optimal Experiment Design in Parameter Identification of Mechatronic Systems”中，提出了一种基于强化学习（RL）的方法，让代理自主学习最优激励信号，同时通过奖励塑形自动满足安全约束。

研究人员以Quanser Aero 2飞行器测试平台为载体，该平台是一个典型的机电系统，包含两个电机和三个待辨识参数（如转动惯量、阻尼系数等）。他们设计了强化学习框架，其中代理的任务是生成激励信号序列，目标是最大化参数估计的信息量（以Fisher信息矩阵为度量），同时惩罚违反安全约束的行为。代理采用近端策略优化（PPO）算法进行训练，奖励函数综合了信息增益和安全合规性。

通过10次独立训练的种子测试，综合代理在所有三个参数上均取得了与经典方法（如伪随机二进制序列和扫频信号）相当甚至更优的估计精度。更令人印象深刻的是，安全违规率仅为0.75%，即在整个实验过程中，只有极少数动作导致了硬件限制的轻微越界。这一结果表明，强化学习能够在不依赖人工干预的情况下，自动探索出符合安全要求的高效激励信号，为复杂机电系统的自动化系统辨识开辟了新路径。

该研究的意义在于，它展示了RL在实验设计中的潜力，尤其是在安全关键的物理系统中。未来，该方法可扩展到更复杂的多输入多输出系统，甚至用于在线自适应实验设计。该成果已被DEXA AI4IP 2026会议接收，论文预印本可在arXiv获取（arXiv:2606.00059）。