人與機器的博弈:解開戰略推理以推動AI發展
麻省理工學院助理教授Gabriele Farina利用博弈論、機器學習和優化技術,研究複雜多智能體場景中的決策基礎。他開發了能擊敗人類頂級玩家的戰略遊戲AI,並以低成本實現突破。
Gabriele Farina在意大利北部一個丘陵葡萄酒產區的小鎮長大。他的父母都沒有大學學歷,儘管兩人都堅信自己“不懂數學”,但Farina表示,他們為他購買了他想要的技術書籍,也沒有阻止他進入偏重科學而不是古典文學的高中。大約14歲時,Farina就專注於一個後來成為他職業生涯基礎的想法。他説:“我很早就着迷於這樣一個想法:機器做出預測或決策的能力可以遠勝人類。人類用數學和算法創造的系統,在某種意義上超越了它們的創造者,而這一切都建立在簡單的構建模塊之上,這讓我始終充滿敬畏。”16歲時,Farina編寫代碼來解決他和13歲妹妹玩的一款棋盤遊戲。“我用遊戲反覆計算最佳走法,向妹妹證明她在我們倆都還看不到的時候就已經輸了,”Farina説,並補充道他的妹妹對他的新系統並不那麼着迷。如今,Farina是麻省理工學院電氣工程與計算機科學系(EECS)的助理教授,也是信息與決策系統實驗室(LIDS)的首席研究員。他將博弈論的概念與機器學習、優化和統計學等工具相結合,以推進決策的理論和算法基礎。在米蘭理工大學就讀本科時,Farina學習自動化與控制工程。然而,隨着時間的推移,他意識到真正激發他興趣的並不僅僅是“應用已知技術,而是理解並擴展它們的基礎,”他説,“我逐漸轉向理論,同時仍然深切關注展示這些理論的具體應用。”Farina在米蘭理工大學的導師Nicola Gatti教授向他介紹了計算博弈論中的研究問題,並鼓勵他申請博士學位。當時,作為直系親屬中第一個獲得大學學位的人,且生活在意大利(博士制度不同),Farina説他甚至不知道博士是什麼。儘管如此,本科畢業一個月後,Farina便開始了在卡內基梅隆大學的計算機科學博士學習。在那裏,他的研究和論文獲得了榮譽,並獲得了Facebook經濟學與計算獎學金。完成博士學位後,Farina在Meta的基礎AI研究實驗室擔任了一年的研究科學家。他的主要項目之一是幫助開發Cicero,一個能在涉及結盟、談判和識破虛張聲勢的遊戲中擊敗人類玩家的AI。Farina説:“當我們構建Cicero時,我們設計它不會同意對其不利的結盟,同樣它也能判斷玩家是否可能在撒謊,因為如果按照提議去做會違反他們自身的激勵。”2022年《麻省理工科技評論》的一篇文章指出,Cicero可能代表了向能夠解決需要妥協的複雜問題的AI的進步。在Meta工作一年後,Farina加入麻省理工學院的教職。2025年,他獲得了國家科學基金會CAREER獎。他的工作基於博弈論及其描述不同方擁有不同目標時情況的數學語言,並量化“均衡”——即沒有任何一方有理由改變其策略的狀態。他的目標是簡化那些計算均衡可能需要數十億年的大規模複雜現實場景。“我研究如何利用優化和算法高效地找到這些穩定點,”他説,“我們的工作試圖揭示該理論的數學基礎,更好地控制和預測這些複雜動態系統,並利用這些思想為大規模多智能體交互計算出良好解決方案。”Farina尤其對“不完美信息”設置感興趣,這意味着某些智能體擁有其他參與者未知的信息。在這樣的場景中,信息具有價值,參與者必須策略性地基於所擁有的信息行動,以免泄露信息並降低其價值。日常例子發生在撲克遊戲中,玩家通過虛張聲勢來隱藏手中的牌的信息。Farina認為:“我們現在生活在一個機器比人類更擅長虛張聲勢的世界。”一個涉及“海量不完美信息”的情景讓Farina回到了他的棋盤遊戲起點。Stratego是一款軍事策略遊戲,它曾催生花費數百萬美元的研究努力,以製造能夠擊敗人類玩家的系統。Farina説,Stratego需要複雜的風險計算和誤導(即虛張聲勢),可能是唯一一個主要努力未能產生超人表現的經典遊戲。通過新算法和少於1萬美元的訓練成本(而非數百萬),Farina和他的研究團隊擊敗了有史以來最優秀的玩家——取得了15勝4平1負的戰績。Farina表示,他以如此經濟的成本取得這樣的成果感到非常興奮,並希望“這些新技術將融入未來的流程中。”他説:“我們看到了在構建能夠戰略推理並在大行動空間或不完美信息下做出合理決策的算法方面的持續進步。我很高興看到這些算法融入我們周圍正在發生的更廣泛的AI革命。