AI News HubLIVE
站内改写2 分钟阅读

博弈论中的通才有时胜过专才

研究人员表明,对于某些类型的博弈,一类被忽视的算法性能远超预期。

来源MIT News AI作者: Steve Nadis | MIT Laboratory for Information and Decision Systems

您是否在玩扑克或进行房屋竞价时,面临信息不完全的情况?您知道自己的牌和预算,却不知道对手的牌或对方的最高出价。一项由MIT研究人员合作完成的论文,为这类“零和”不完全信息博弈提供了新见解。该论文于今年4月在里约热内卢举行的国际学习表征会议(ICLR)上发表。

研究聚焦于用于训练神经网络参与不完全信息博弈的算法。长期以来,领域内普遍认为基于博弈论原理的专门算法会明显优于一类通用算法——策略梯度方法。策略梯度方法自20世纪90年代开始用于决策,其核心概念“策略”即战略,“梯度”则指向变化最大的方向。该方法通过小步骤逐步调整,引导智能体朝向目标前进。

然而,这项新研究挑战了这一假设。共同作者、MIT电气工程与计算机科学系(EECS)博士生Sobhan Mohammadpour表示:“我们展示了策略梯度方法可以比专门算法表现得更好,而专门算法可能并不像人们想象的那么有效。”研究团队包括EECS助理教授Gabriele Farina等多名来自MIT、德克萨斯大学奥斯汀分校、加州大学伯克利分校、卡内基梅隆大学、纽约大学等机构的学者。

该研究的一个主要贡献是提供了一个公平评估不同算法的基准。不同于许多提出新算法的论文,他们开发了一个测试平台,让研究人员将自己的算法在特定任务上训练并评估表现。性能通过“可剥削性”指标衡量,即玩家在面对“最坏情况对手”时的表现。得分为零表示完美玩法,高分则说明欠佳。

实验在五个游戏上进行:两种幻影井字棋变体、两种不完全信息Hex变体以及说谎者骰子。最大的挑战在于将可剥削性指标应用于这些包含多达300亿个状态的游戏。Mohammadpour解释道:“这就像观察一个充满不可见物体的黑暗房间,你需要弄清它们的位置和来源。”此前的研究通常将可剥削性用于规模小10万倍的博弈。

结果表明,使用策略梯度方法训练的神经网络在可剥削性得分上优于基于博弈论算法训练的神经网络,在直接对战中同样胜出。研究团队已将基准测试软件免费公开,用户只需在常用基准测试集合OpenSpiel中添加一行代码即可运行在普通笔记本电脑上。

尽管实验涉及一些冷门游戏,Farina强调其更广泛的意义:“‘博弈’一词实际上适用于任何多智能体战略互动,因此研究教训不仅限于娱乐游戏。”共同作者Eugene Vinitsky补充道:“隐藏信息是现实世界的重要属性,遍及军事行动、交易场景和谈判。改进这些博弈意味着我们也能在其他情境中做得更好。”

谷歌DeepMind的计算机科学家Ian Gemp(未参与研究)对此表示肯定:“这项工作提醒我们,现代化经典工具(如策略梯度方法)仍然是解决复杂战略问题的有效途径。”