通过玩“战舰”游戏教AI智能体提出更好的问题
MIT研究人员利用经典游戏作为测试平台,发现小型AI模型仅需1%的成本就能超越最大型模型。
2026年,人工智能智能体的热潮空前高涨。这些半自主程序能够在客户服务和软件开发等领域“思考”并执行明确定义的任务,通常使用语言模型(LM)。然而,在医疗诊断和科学发现等领域,它们需要在不确定环境中对大量解决方案进行询问,而LM在这方面存在困难。
麻省理工学院计算机科学与人工智能实验室(CSAIL)和哈佛大学工程与应用科学学院(SEAS)的研究人员深入研究了LM,以了解它们在高风险场景中的主要问题。他们的测试是“战舰”游戏,这是一款经典的猜测游戏,曾帮助认知科学家研究人类如何获取信息。
CSAIL和SEAS的学者通过将游戏重新定义为围绕自然语言问题的提问和回答,加入了新的变化。在他们的“协作战舰”游戏中,一名参与者是“船长”,负责询问隐藏船只的位置,而他们的队友则扮演“观察员”,实时回答这些问题。
研究人员首先让40多名人类一起玩游戏,收集他们的问题和是非回答,构建了“BattleshipQA”数据集。这些结果在团队测试最先进的LM(如GPT-5)和较小模型(如Llama 4 Scout)时提供了有用的比较点。在事先不训练模型的情况下,他们发现顶级LM可以在更少的回合内“击败”人类,但较小的系统则远非理性。
主要问题是许多模型根本不擅长提出有用的问题。为了让LM以能够揭示更多关于隐藏船只信息的方式提问,研究人员为每个模型提供了蒙特卡洛推断策略,该策略仔细衡量每个回答下不同选项正确的可能性。结果是:无论规模大小,AI模型都能在“战舰”游戏中击败普通玩家。
最引人注目的结果可能是Llama 4 Scout的提升。作为一个相对较小的LM,它只有8%的胜率。但通过改进其推断策略,该模型对人类的胜率达到了82%。这种谨慎高效的提问方式还使模型能够超越前沿模型GPT-5,同时仅需其约1%的成本。
除了这一改进,研究人员还缩小了人类和LM在回答问题方面的差距。虽然GPT-5是一个可靠的观察员,帮助模型更快完成游戏,但较小的系统有一个坏习惯,即对隐藏船只的位置给出错误的回答。当模型开始将问题转换为明确指示如何验证答案的代码时(例如,当被问及是否有船在某个区域时,让模型快速搜索该区域),模型准确率平均提升了15%。
“今天的语言模型主要针对回答复杂查询进行了优化,但尚不清楚它们是否学会了为自己提出好问题,”MIT博士生、CSAIL研究员Gabriel Grand说,“我们的工作表明,提出信息丰富的问题取决于预测和模拟世界的能力。我们发现,当赋予智能体‘世界模型’时,它们会提出更好的问题,更有效地做出发现。”
团队首先专注于让LM提出更好的问题。通过实施蒙特卡洛推断策略,LM将潜在猜测作为单个粒子进行推理。随着观察员的每个回答,那些看起来更有效的粒子会被赋予更高的权重,类似于每回合膨胀或收缩的赛球。通过这种更计算化、自适应的方式,船长可以提出从观察员处提取更多信息的问题。
然后,科学家们转向广泛使用的编程语言Python来帮助AI观察员。每个船长提出的问题被自动转换为编码指令。例如,“第一列是否有占据两行的船只?”这样的问题变为让观察员LM搜索该区域并评估数字游戏棋子宽度的指令。通过用模型特别理解的语言给出清晰指示,每个系统给出正确答案的频率大幅提高。例如,轻量级系统GPT-4o-mini性能提升了近30%,甚至大型模型Claude 4 Opus也提升了约8个百分点。
“该领域从‘自动形式化’策略中看到了很多成功,其中LM生成代码来验证其解决方案,”资深作者、MIT电气工程与计算机科学副教授、CSAIL首席研究员Jacob Andreas说,“我对这项工作最兴奋的是,它开辟了使用这些技术首先生成更好解决方案的可能性,通过改进LM的探索和信息收集能力。我们很高兴将这项工作从科学领域扩展到编码和数学问题解决等应用。”
但这种方法在其他棋盘游戏中表现如何?团队在“猜猜我是谁?”游戏中测试了他们新装备的LM,大小模型都巧妙地将100个选项缩小到正确猜测隐藏角色。Llama 4 Scout的成功率为30%,但在Grand及其同事调整后,其在超过72%的试验中完成了任务。与此同时,GPT-4o从62%跃升至90%。GPT-5在每场游戏中担任观察员,以确保问题尽可能准确地回答。
尽管LM在这两种游戏中都取得了有希望的进展,但仍有改进空间。例如,与人类相比,模型仍然难以回答复杂问题。OpenAI研究员、近期哈佛毕业生、合著者Valerio Pepe补充说:“GPT-5可以击败普通的‘战舰’玩家,并且我们的方法使其稍好一些。然而,专家玩家仍然很难被所有模型击败,不像国际象棋,即使是顶尖棋手也难以战胜AI系统。”
研究人员的发现表明,AI智能体在“大海捞针”式发现方面具有未开发的潜力——在巨大的选项空间中导航,找到科学挑战的罕见解决方案。虽然改进的信息寻求技能将使它们成为优秀的研究助手,例如鉴定化合物的分子结构,但研究人员警告说,“协作战舰”是一个相对简单的测试床。他们希望在更复杂的环境中测试LM,在这些环境中系统必须考虑更多选项。
Grand还计划让人类和AI模型协作,研究它们是否合作得更好。模型可能还会受益于对游戏模拟进行一些微调,并且随着计算能力的提升,LM将拥有更高级的推断能力来预测游戏如何演变。
“随着AI系统变得越来越具有代理性,最困难的问题变成了社会性问题:跟踪共同基础、解决误解以及随着时间的推移适应不同合作伙伴,”斯坦福大学语言学助理教授Robert Hawkins说,他没有参与该论文,“这项工作在一个受控的协作环境中优雅地捕捉了这些现象,并令人信服地表明,AI智能体的真正瓶颈不仅仅是计算最优问题,而是需要从答案中获取最大价值的语用推理。”
Grand和Pepe与两位CSAIL首席研究员——MIT副教授Jacob Andreas和MIT教授Joshua Tenenbaum——共同撰写了该论文。他们的工作部分得到了MIT Siegel家族Quest for Intelligence、MIT-IBM Watson AI Lab、FinTechAI@CSAIL计划、Sloan研究奖学金、Intel、空军科学研究办公室、国防高级研究计划局、海军研究办公室和国家科学基金会的支持。该论文在4月的国际学习表征大会(ICLR)上作为口头报告展示。