AI News HubLIVE
站内改写3 分钟阅读

人与机器的博弈:解开战略推理以推动AI发展

麻省理工学院助理教授Gabriele Farina利用博弈论、机器学习和优化技术,研究复杂多智能体场景中的决策基础。他开发了能击败人类顶级玩家的战略游戏AI,并以低成本实现突破。

来源MIT News AI作者: Michaela Jarvis | MIT Laboratory for Information and Decision Systems

Gabriele Farina在意大利北部一个丘陵葡萄酒产区的小镇长大。他的父母都没有大学学历,尽管两人都坚信自己“不懂数学”,但Farina表示,他们为他购买了他想要的技术书籍,也没有阻止他进入偏重科学而不是古典文学的高中。大约14岁时,Farina就专注于一个后来成为他职业生涯基础的想法。他说:“我很早就着迷于这样一个想法:机器做出预测或决策的能力可以远胜人类。人类用数学和算法创造的系统,在某种意义上超越了它们的创造者,而这一切都建立在简单的构建模块之上,这让我始终充满敬畏。”16岁时,Farina编写代码来解决他和13岁妹妹玩的一款棋盘游戏。“我用游戏反复计算最佳走法,向妹妹证明她在我们俩都还看不到的时候就已经输了,”Farina说,并补充道他的妹妹对他的新系统并不那么着迷。如今,Farina是麻省理工学院电气工程与计算机科学系(EECS)的助理教授,也是信息与决策系统实验室(LIDS)的首席研究员。他将博弈论的概念与机器学习、优化和统计学等工具相结合,以推进决策的理论和算法基础。在米兰理工大学就读本科时,Farina学习自动化与控制工程。然而,随着时间的推移,他意识到真正激发他兴趣的并不仅仅是“应用已知技术,而是理解并扩展它们的基础,”他说,“我逐渐转向理论,同时仍然深切关注展示这些理论的具体应用。”Farina在米兰理工大学的导师Nicola Gatti教授向他介绍了计算博弈论中的研究问题,并鼓励他申请博士学位。当时,作为直系亲属中第一个获得大学学位的人,且生活在意大利(博士制度不同),Farina说他甚至不知道博士是什么。尽管如此,本科毕业一个月后,Farina便开始了在卡内基梅隆大学的计算机科学博士学习。在那里,他的研究和论文获得了荣誉,并获得了Facebook经济学与计算奖学金。完成博士学位后,Farina在Meta的基础AI研究实验室担任了一年的研究科学家。他的主要项目之一是帮助开发Cicero,一个能在涉及结盟、谈判和识破虚张声势的游戏中击败人类玩家的AI。Farina说:“当我们构建Cicero时,我们设计它不会同意对其不利的结盟,同样它也能判断玩家是否可能在撒谎,因为如果按照提议去做会违反他们自身的激励。”2022年《麻省理工科技评论》的一篇文章指出,Cicero可能代表了向能够解决需要妥协的复杂问题的AI的进步。在Meta工作一年后,Farina加入麻省理工学院的教职。2025年,他获得了国家科学基金会CAREER奖。他的工作基于博弈论及其描述不同方拥有不同目标时情况的数学语言,并量化“均衡”——即没有任何一方有理由改变其策略的状态。他的目标是简化那些计算均衡可能需要数十亿年的大规模复杂现实场景。“我研究如何利用优化和算法高效地找到这些稳定点,”他说,“我们的工作试图揭示该理论的数学基础,更好地控制和预测这些复杂动态系统,并利用这些思想为大规模多智能体交互计算出良好解决方案。”Farina尤其对“不完美信息”设置感兴趣,这意味着某些智能体拥有其他参与者未知的信息。在这样的场景中,信息具有价值,参与者必须策略性地基于所拥有的信息行动,以免泄露信息并降低其价值。日常例子发生在扑克游戏中,玩家通过虚张声势来隐藏手中的牌的信息。Farina认为:“我们现在生活在一个机器比人类更擅长虚张声势的世界。”一个涉及“海量不完美信息”的情景让Farina回到了他的棋盘游戏起点。Stratego是一款军事策略游戏,它曾催生花费数百万美元的研究努力,以制造能够击败人类玩家的系统。Farina说,Stratego需要复杂的风险计算和误导(即虚张声势),可能是唯一一个主要努力未能产生超人表现的经典游戏。通过新算法和少于1万美元的训练成本(而非数百万),Farina和他的研究团队击败了有史以来最优秀的玩家——取得了15胜4平1负的战绩。Farina表示,他以如此经济的成本取得这样的成果感到非常兴奋,并希望“这些新技术将融入未来的流程中。”他说:“我们看到了在构建能够战略推理并在大行动空间或不完美信息下做出合理决策的算法方面的持续进步。我很高兴看到这些算法融入我们周围正在发生的更广泛的AI革命。