通過玩“戰艦”遊戲教AI智能體提出更好的問題
MIT研究人員利用經典遊戲作為測試平台,發現小型AI模型僅需1%的成本就能超越最大型模型。
2026年,人工智能智能體的熱潮空前高漲。這些半自主程序能夠在客户服務和軟件開發等領域“思考”並執行明確定義的任務,通常使用語言模型(LM)。然而,在醫療診斷和科學發現等領域,它們需要在不確定環境中對大量解決方案進行詢問,而LM在這方面存在困難。
麻省理工學院計算機科學與人工智能實驗室(CSAIL)和哈佛大學工程與應用科學學院(SEAS)的研究人員深入研究了LM,以瞭解它們在高風險場景中的主要問題。他們的測試是“戰艦”遊戲,這是一款經典的猜測遊戲,曾幫助認知科學家研究人類如何獲取信息。
CSAIL和SEAS的學者通過將遊戲重新定義為圍繞自然語言問題的提問和回答,加入了新的變化。在他們的“協作戰艦”遊戲中,一名參與者是“船長”,負責詢問隱藏船隻的位置,而他們的隊友則扮演“觀察員”,實時回答這些問題。
研究人員首先讓40多名人類一起玩遊戲,收集他們的問題和是非回答,構建了“BattleshipQA”數據集。這些結果在團隊測試最先進的LM(如GPT-5)和較小模型(如Llama 4 Scout)時提供了有用的比較點。在事先不訓練模型的情況下,他們發現頂級LM可以在更少的回合內“擊敗”人類,但較小的系統則遠非理性。
主要問題是許多模型根本不擅長提出有用的問題。為了讓LM以能夠揭示更多關於隱藏船隻信息的方式提問,研究人員為每個模型提供了蒙特卡洛推斷策略,該策略仔細衡量每個回答下不同選項正確的可能性。結果是:無論規模大小,AI模型都能在“戰艦”遊戲中擊敗普通玩家。
最引人注目的結果可能是Llama 4 Scout的提升。作為一個相對較小的LM,它只有8%的勝率。但通過改進其推斷策略,該模型對人類的勝率達到了82%。這種謹慎高效的提問方式還使模型能夠超越前沿模型GPT-5,同時僅需其約1%的成本。
除了這一改進,研究人員還縮小了人類和LM在回答問題方面的差距。雖然GPT-5是一個可靠的觀察員,幫助模型更快完成遊戲,但較小的系統有一個壞習慣,即對隱藏船隻的位置給出錯誤的回答。當模型開始將問題轉換為明確指示如何驗證答案的代碼時(例如,當被問及是否有船在某個區域時,讓模型快速搜索該區域),模型準確率平均提升了15%。
“今天的語言模型主要針對回答複雜查詢進行了優化,但尚不清楚它們是否學會了為自己提出好問題,”MIT博士生、CSAIL研究員Gabriel Grand説,“我們的工作表明,提出信息豐富的問題取決於預測和模擬世界的能力。我們發現,當賦予智能體‘世界模型’時,它們會提出更好的問題,更有效地做出發現。”
團隊首先專注於讓LM提出更好的問題。通過實施蒙特卡洛推斷策略,LM將潛在猜測作為單個粒子進行推理。隨着觀察員的每個回答,那些看起來更有效的粒子會被賦予更高的權重,類似於每回合膨脹或收縮的賽球。通過這種更計算化、自適應的方式,船長可以提出從觀察員處提取更多信息的問題。
然後,科學家們轉向廣泛使用的編程語言Python來幫助AI觀察員。每個船長提出的問題被自動轉換為編碼指令。例如,“第一列是否有佔據兩行的船隻?”這樣的問題變為讓觀察員LM搜索該區域並評估數字遊戲棋子寬度的指令。通過用模型特別理解的語言給出清晰指示,每個系統給出正確答案的頻率大幅提高。例如,輕量級系統GPT-4o-mini性能提升了近30%,甚至大型模型Claude 4 Opus也提升了約8個百分點。
“該領域從‘自動形式化’策略中看到了很多成功,其中LM生成代碼來驗證其解決方案,”資深作者、MIT電氣工程與計算機科學副教授、CSAIL首席研究員Jacob Andreas説,“我對這項工作最興奮的是,它開闢了使用這些技術首先生成更好解決方案的可能性,通過改進LM的探索和信息收集能力。我們很高興將這項工作從科學領域擴展到編碼和數學問題解決等應用。”
但這種方法在其他棋盤遊戲中表現如何?團隊在“猜猜我是誰?”遊戲中測試了他們新裝備的LM,大小模型都巧妙地將100個選項縮小到正確猜測隱藏角色。Llama 4 Scout的成功率為30%,但在Grand及其同事調整後,其在超過72%的試驗中完成了任務。與此同時,GPT-4o從62%躍升至90%。GPT-5在每場遊戲中擔任觀察員,以確保問題儘可能準確地回答。
儘管LM在這兩種遊戲中都取得了有希望的進展,但仍有改進空間。例如,與人類相比,模型仍然難以回答複雜問題。OpenAI研究員、近期哈佛畢業生、合著者Valerio Pepe補充説:“GPT-5可以擊敗普通的‘戰艦’玩家,並且我們的方法使其稍好一些。然而,專家玩家仍然很難被所有模型擊敗,不像國際象棋,即使是頂尖棋手也難以戰勝AI系統。”
研究人員的發現表明,AI智能體在“大海撈針”式發現方面具有未開發的潛力——在巨大的選項空間中導航,找到科學挑戰的罕見解決方案。雖然改進的信息尋求技能將使它們成為優秀的研究助手,例如鑑定化合物的分子結構,但研究人員警告説,“協作戰艦”是一個相對簡單的測試牀。他們希望在更復雜的環境中測試LM,在這些環境中系統必須考慮更多選項。
Grand還計劃讓人類和AI模型協作,研究它們是否合作得更好。模型可能還會受益於對遊戲模擬進行一些微調,並且隨着計算能力的提升,LM將擁有更高級的推斷能力來預測遊戲如何演變。
“隨着AI系統變得越來越具有代理性,最困難的問題變成了社會性問題:跟蹤共同基礎、解決誤解以及隨着時間的推移適應不同合作伙伴,”斯坦福大學語言學助理教授Robert Hawkins説,他沒有參與該論文,“這項工作在一個受控的協作環境中優雅地捕捉了這些現象,並令人信服地表明,AI智能體的真正瓶頸不僅僅是計算最優問題,而是需要從答案中獲取最大價值的語用推理。”
Grand和Pepe與兩位CSAIL首席研究員——MIT副教授Jacob Andreas和MIT教授Joshua Tenenbaum——共同撰寫了該論文。他們的工作部分得到了MIT Siegel家族Quest for Intelligence、MIT-IBM Watson AI Lab、FinTechAI@CSAIL計劃、Sloan研究獎學金、Intel、空軍科學研究辦公室、國防高級研究計劃局、海軍研究辦公室和國家科學基金會的支持。該論文在4月的國際學習表徵大會(ICLR)上作為口頭報告展示。