AI News HubLIVE
站内改写1 分钟阅读

TRIDENT:打破混合安全物理耦合的可证明安全多智能体强化学习

TRIDENT是一个新颖的多智能体强化学习框架,专门处理混合离散连续动作、安全约束和物理动力学的三向耦合问题。它引入了Richardson-Romberg梯度校正、Lyapunov约束的顺序信任域更新和物理信息残差批评家,实现了O~(1/√K)的收敛速度,并将训练违规减少高达95.5%。

来源arXiv Machine Learning作者: Zijie Meng, Ziwei Li, Yufei Liu, Zhiyu Li, Jiyuan Liu, Wenhua Nie, Bingcai Wei, Miao Zhang

在网络化信息物理系统中,多智能体系统的安全协调面临三大挑战:混合离散-连续动作空间、严格的训练时安全约束以及物理驱动的动力学。以往的研究通常分别处理这些问题,但新研究表明这三者形成了一个有向的偏差循环,使得任何简单组合的现成模块都会失效。该问题被形式化为三向耦合引理,凸显了需要统一解决方案。

为此,研究者提出了TRIDENT框架,这是首个针对这一耦合问题的多智能体强化学习(MARL)方案。TRIDENT包含三个协同设计的组件:Richardson-Romberg梯度校正,将Gumbel-Softmax偏差从O(τ)降至O(τ²);Lyapunov约束的顺序信任域更新,确保每一步迭代都满足可行性;以及物理信息残差批评家,通过分解价值而非奖励来整合物理知识。这些组件共同作用,有效打破了混合、安全与物理之间的相互干扰。

理论分析表明,TRIDENT能够以O~(1/√K)的速率收敛到约束纳什均衡,同时保持O(√K)的累积违规上界。在多个基准测试中,包括多元人机移动边缘计算、自主交叉口管理以及混合SMAC变体,TRIDENT展现出卓越性能:训练期间违规次数相比MADDPG减少95.5%,相比MACPO减少76.3%,同时奖励比最强无约束基线提升13.5%。这些结果证明了TRIDENT在安全关键应用中的巨大潜力。该论文由Zijie Meng等人提交于2026年6月16日,包含16页和4张图表,主题涵盖机器学习(cs.LG)和人工智能(cs.AI)。TRIDENT框架不仅提供了理论保证,还通过实验验证了其实际效果,为安全多智能体系统提供了新的方向。