AI News HubLIVE
站內改寫3 分鐘閱讀

人與機器的博弈:解開戰略推理以推動AI發展

麻省理工學院助理教授Gabriele Farina利用博弈論、機器學習和最佳化技術,研究複雜多智慧體場景中的決策基礎。他開發了能擊敗人類頂級玩家的戰略遊戲AI,並以低成本實現突破。

來源MIT News AI作者: Michaela Jarvis | MIT Laboratory for Information and Decision Systems

Gabriele Farina在義大利北部一個丘陵葡萄酒產區的小鎮長大。他的父母都沒有大學學歷,儘管兩人都堅信自己“不懂數學”,但Farina表示,他們為他購買了他想要的技術書籍,也沒有阻止他進入偏重科學而不是古典文學的高中。大約14歲時,Farina就專注於一個後來成為他職業生涯基礎的想法。他說:“我很早就著迷於這樣一個想法:機器做出預測或決策的能力可以遠勝人類。人類用數學和演算法創造的系統,在某種意義上超越了它們的創造者,而這一切都建立在簡單的構建模組之上,這讓我始終充滿敬畏。”16歲時,Farina編寫程式碼來解決他和13歲妹妹玩的一款棋盤遊戲。“我用遊戲反覆計算最佳走法,向妹妹證明她在我們倆都還看不到的時候就已經輸了,”Farina說,並補充道他的妹妹對他的新系統並不那麼著迷。如今,Farina是麻省理工學院電氣工程與電腦科學系(EECS)的助理教授,也是資訊與決策系統實驗室(LIDS)的首席研究員。他將博弈論的概念與機器學習、最佳化和統計學等工具相結合,以推進決策的理論和演算法基礎。在米蘭理工大學就讀本科時,Farina學習自動化與控制工程。然而,隨著時間的推移,他意識到真正激發他興趣的並不僅僅是“應用已知技術,而是理解並擴充套件它們的基礎,”他說,“我逐漸轉向理論,同時仍然深切關注展示這些理論的具體應用。”Farina在米蘭理工大學的導師Nicola Gatti教授向他介紹了計算博弈論中的研究問題,並鼓勵他申請博士學位。當時,作為直系親屬中第一個獲得大學學位的人,且生活在義大利(博士制度不同),Farina說他甚至不知道博士是什麼。儘管如此,本科畢業一個月後,Farina便開始了在卡內基梅隆大學的電腦科學博士學習。在那裡,他的研究和論文獲得了榮譽,並獲得了Facebook經濟學與計算獎學金。完成博士學位後,Farina在Meta的基礎AI研究實驗室擔任了一年的研究科學家。他的主要專案之一是幫助開發Cicero,一個能在涉及結盟、談判和識破虛張聲勢的遊戲中擊敗人類玩家的AI。Farina說:“當我們構建Cicero時,我們設計它不會同意對其不利的結盟,同樣它也能判斷玩家是否可能在撒謊,因為如果按照提議去做會違反他們自身的激勵。”2022年《麻省理工科技評論》的一篇文章指出,Cicero可能代表了向能夠解決需要妥協的複雜問題的AI的進步。在Meta工作一年後,Farina加入麻省理工學院的教職。2025年,他獲得了國家科學基金會CAREER獎。他的工作基於博弈論及其描述不同方擁有不同目標時情況的數學語言,並量化“均衡”——即沒有任何一方有理由改變其策略的狀態。他的目標是簡化那些計算均衡可能需要數十億年的大規模複雜現實場景。“我研究如何利用最佳化和演算法高效地找到這些穩定點,”他說,“我們的工作試圖揭示該理論的數學基礎,更好地控制和預測這些複雜動態系統,並利用這些思想為大規模多智慧體互動計算出良好解決方案。”Farina尤其對“不完美資訊”設定感興趣,這意味著某些智慧體擁有其他參與者未知的資訊。在這樣的場景中,資訊具有價值,參與者必須策略性地基於所擁有的資訊行動,以免洩露資訊並降低其價值。日常例子發生在撲克遊戲中,玩家透過虛張聲勢來隱藏手中的牌的資訊。Farina認為:“我們現在生活在一個機器比人類更擅長虛張聲勢的世界。”一個涉及“海量不完美資訊”的情景讓Farina回到了他的棋盤遊戲起點。Stratego是一款軍事策略遊戲,它曾催生花費數百萬美元的研究努力,以製造能夠擊敗人類玩家的系統。Farina說,Stratego需要複雜的風險計算和誤導(即虛張聲勢),可能是唯一一個主要努力未能產生超人表現的經典遊戲。透過新演算法和少於1萬美元的訓練成本(而非數百萬),Farina和他的研究團隊擊敗了有史以來最優秀的玩家——取得了15勝4平1負的戰績。Farina表示,他以如此經濟的成本取得這樣的成果感到非常興奮,並希望“這些新技術將融入未來的流程中。”他說:“我們看到了在構建能夠戰略推理並在大行動空間或不完美資訊下做出合理決策的演算法方面的持續進步。我很高興看到這些演算法融入我們周圍正在發生的更廣泛的AI革命。