2026-06-18站内改写1 分钟阅读更新: 2026-06-18

TRIDENT：打破混合安全物理耦合的可证明安全多智能体强化学习

TRIDENT是一个新颖的多智能体强化学习框架，专门处理混合离散连续动作、安全约束和物理动力学的三向耦合问题。它引入了Richardson-Romberg梯度校正、Lyapunov约束的顺序信任域更新和物理信息残差批评家，实现了O~(1/√K)的收敛速度，并将训练违规减少高达95.5%。

来源arXiv Machine Learning作者: Zijie Meng, Ziwei Li, Yufei Liu, Zhiyu Li, Jiyuan Liu, Wenhua Nie, Bingcai Wei, Miao Zhang

在网络化信息物理系统中，多智能体系统的安全协调面临三大挑战：混合离散-连续动作空间、严格的训练时安全约束以及物理驱动的动力学。以往的研究通常分别处理这些问题，但新研究表明这三者形成了一个有向的偏差循环，使得任何简单组合的现成模块都会失效。该问题被形式化为三向耦合引理，凸显了需要统一解决方案。

为此，研究者提出了TRIDENT框架，这是首个针对这一耦合问题的多智能体强化学习（MARL）方案。TRIDENT包含三个协同设计的组件：Richardson-Romberg梯度校正，将Gumbel-Softmax偏差从O(τ)降至O(τ²)；Lyapunov约束的顺序信任域更新，确保每一步迭代都满足可行性；以及物理信息残差批评家，通过分解价值而非奖励来整合物理知识。这些组件共同作用，有效打破了混合、安全与物理之间的相互干扰。

理论分析表明，TRIDENT能够以O~(1/√K)的速率收敛到约束纳什均衡，同时保持O(√K)的累积违规上界。在多个基准测试中，包括多元人机移动边缘计算、自主交叉口管理以及混合SMAC变体，TRIDENT展现出卓越性能：训练期间违规次数相比MADDPG减少95.5%，相比MACPO减少76.3%，同时奖励比最强无约束基线提升13.5%。这些结果证明了TRIDENT在安全关键应用中的巨大潜力。该论文由Zijie Meng等人提交于2026年6月16日，包含16页和4张图表，主题涵盖机器学习（cs.LG）和人工智能（cs.AI）。TRIDENT框架不仅提供了理论保证，还通过实验验证了其实际效果，为安全多智能体系统提供了新的方向。