GPTNT:多模態智慧體在《保持通話,無人爆炸》遊戲中的即時協作基準測試
研究人員提出GPTNT基準測試,基於合作遊戲《保持通話,無人爆炸》,評估多模態AI智慧體在即時協作中的表現。測試發現,當前最先進的模型無一能在即時中成功拆彈,而人類玩家可以。該基準測試透過控制指令手冊和夥伴的可用性,將協作從記憶依賴中分離出來,並揭示了模型在狀態跟蹤、時間壓力下的行動效率、歧義處理和錯誤恢復方面的關鍵弱點。
多模態模型正越來越多地被部署用於與人類或其他人工智慧智慧體協作完成任務。然而,現有基準測試通常孤立地研究協作中的各種條件,如時間壓力、資訊不對稱和不完美溝通。為了全面評估這些能力,研究人員提出了GPTNT基準測試,它基於合作影片遊戲《保持通話,無人爆炸》(Keep Talking and Nobody Explodes)。
在該遊戲中,兩名智慧體必須協調合作,在即時倒計時下拆除程式生成的炸彈謎題。一名智慧體可以看見並操作炸彈,但沒有拆彈說明書;另一名擁有說明書,但無法看見或操作炸彈。沒有一個智慧體可以單獨成功:成功需要有效且高效的溝通。與基於回合的代理不同,GPTNT要求智慧體非同步行動並即時通訊。GPTNT的設計旨在將協作與對記憶解決方案的依賴分離開來:可以隱藏說明書、夥伴或兩者,以隔離模型從已知資訊中即時推導的內容。
研究結果表明,GPTNT對當前最先進的系統構成了重大挑戰。測試的所有封閉和開源模型均未能在即時中拆除任何一顆炸彈,而人類玩家能夠輕鬆完成這一任務。透過控制實驗,研究人員識別出模型在狀態跟蹤、時間壓力下的高效行動、歧義處理和錯誤恢復方面的關鍵弱點。例如,模型經常無法準確跟蹤炸彈的當前狀態,導致錯誤的下一步操作;在時間壓力下,它們傾向於緩慢或低效地行動;面對模糊的描述時,它們無法有效地請求澄清;而一旦犯錯,它們很難從錯誤中恢復,往往導致連鎖失敗。
GPTNT作為基準測試釋出,用於衡量當前評估中未測量的協作效能。由於它執行在真實遊戲之上,GPTNT受益於程式生成,並繼承了活躍的模組社群,這使得基準測試能夠隨著模型的改進而演變,而不是一次性解決後便廢棄。這一工作的意義在於,它為未來多模態協作智慧體的發展提供了一個更具挑戰性和生態有效性的測試平臺。