AI News HubLIVE
站内改写1 分钟阅读

具有双向信息不对称的情景赌博机监督博弈

该论文提出一个情景赌博机团队博弈模型,研究人类与AI之间双向私人信息下的运行时监督,并给出了团队最优和短视规则的精确表征,揭示了可避免伤害的区间以及非可信监督沟通的代价。

来源arXiv AI作者: Yunjin Tong

一篇新的研究论文《具有双向信息不对称的情景赌博机监督博弈》由Yunjin Tong提交至arXiv,于2026年6月30日发布。该论文聚焦于运行时人类对AI代理的监督问题,其中双方均持有私人信息:人类私下知晓自身的奖励函数,而AI则了解其提议行动的质量。这种不对称性在自动驾驶机器人或软件代理检查了人类监督员无法直接评估的情形时自然产生。论文在合作逆强化学习(CIRL)和监督博弈的基础上,引入了一个具有双向不对称信息的情景赌博机团队博弈,并设计了“行动/询问/信任/监督”接口。赌博机结构消除了物理状态转移,从而能够给出精确的单次表征,这在完全POMDP设定中仅能作为猜想,尽管共同信念在回合间仍是动态控制的状态。作者给出了两种单次表征:团队最优和一种符合行为直觉的短视规则。两者之间的差距构成一块“可避免的伤害”:即AI私下知道提议行动有害且关停会有帮助,但短视的人类因信任先验而拒绝监督的区域。论文表明,这一差距正是非可信监督沟通的代价,并给出了动态回合中通过被动学习和主动信号(带有一期滞后的监督响应)如何解决该问题的部分分析。该研究为人工智能安全和人机协作提供了理论洞见,特别是在需要平衡人类监督局限与AI自主性的场景中。论文的学科分类为人工智能(cs.AI)和计算机科学与博弈论(cs.GT)。