GPTNT:多模态智能体在《保持通话,无人爆炸》游戏中的实时协作基准测试
研究人员提出GPTNT基准测试,基于合作游戏《保持通话,无人爆炸》,评估多模态AI智能体在实时协作中的表现。测试发现,当前最先进的模型无一能在实时中成功拆弹,而人类玩家可以。该基准测试通过控制指令手册和伙伴的可用性,将协作从记忆依赖中分离出来,并揭示了模型在状态跟踪、时间压力下的行动效率、歧义处理和错误恢复方面的关键弱点。
多模态模型正越来越多地被部署用于与人类或其他人工智能智能体协作完成任务。然而,现有基准测试通常孤立地研究协作中的各种条件,如时间压力、信息不对称和不完美沟通。为了全面评估这些能力,研究人员提出了GPTNT基准测试,它基于合作视频游戏《保持通话,无人爆炸》(Keep Talking and Nobody Explodes)。
在该游戏中,两名智能体必须协调合作,在实时倒计时下拆除程序生成的炸弹谜题。一名智能体可以看见并操作炸弹,但没有拆弹说明书;另一名拥有说明书,但无法看见或操作炸弹。没有一个智能体可以单独成功:成功需要有效且高效的沟通。与基于回合的代理不同,GPTNT要求智能体异步行动并实时通信。GPTNT的设计旨在将协作与对记忆解决方案的依赖分离开来:可以隐藏说明书、伙伴或两者,以隔离模型从已知信息中即时推导的内容。
研究结果表明,GPTNT对当前最先进的系统构成了重大挑战。测试的所有封闭和开源模型均未能在实时中拆除任何一颗炸弹,而人类玩家能够轻松完成这一任务。通过控制实验,研究人员识别出模型在状态跟踪、时间压力下的高效行动、歧义处理和错误恢复方面的关键弱点。例如,模型经常无法准确跟踪炸弹的当前状态,导致错误的下一步操作;在时间压力下,它们倾向于缓慢或低效地行动;面对模糊的描述时,它们无法有效地请求澄清;而一旦犯错,它们很难从错误中恢复,往往导致连锁失败。
GPTNT作为基准测试发布,用于衡量当前评估中未测量的协作性能。由于它运行在真实游戏之上,GPTNT受益于程序生成,并继承了活跃的模组社区,这使得基准测试能够随着模型的改进而演变,而不是一次性解决后便废弃。这一工作的意义在于,它为未来多模态协作智能体的发展提供了一个更具挑战性和生态有效性的测试平台。