博弈論中的通才有時勝過專才
研究人員表明,對於某些類型的博弈,一類被忽視的算法性能遠超預期。
您是否在玩撲克或進行房屋競價時,面臨信息不完全的情況?您知道自己的牌和預算,卻不知道對手的牌或對方的最高出價。一項由MIT研究人員合作完成的論文,為這類“零和”不完全信息博弈提供了新見解。該論文於今年4月在里約熱內盧舉行的國際學習表徵會議(ICLR)上發表。
研究聚焦於用於訓練神經網絡參與不完全信息博弈的算法。長期以來,領域內普遍認為基於博弈論原理的專門算法會明顯優於一類通用算法——策略梯度方法。策略梯度方法自20世紀90年代開始用於決策,其核心概念“策略”即戰略,“梯度”則指向變化最大的方向。該方法通過小步驟逐步調整,引導智能體朝向目標前進。
然而,這項新研究挑戰了這一假設。共同作者、MIT電氣工程與計算機科學系(EECS)博士生Sobhan Mohammadpour表示:“我們展示了策略梯度方法可以比專門算法表現得更好,而專門算法可能並不像人們想象的那麼有效。”研究團隊包括EECS助理教授Gabriele Farina等多名來自MIT、德克薩斯大學奧斯汀分校、加州大學伯克利分校、卡內基梅隆大學、紐約大學等機構的學者。
該研究的一個主要貢獻是提供了一個公平評估不同算法的基準。不同於許多提出新算法的論文,他們開發了一個測試平台,讓研究人員將自己的算法在特定任務上訓練並評估表現。性能通過“可剝削性”指標衡量,即玩家在面對“最壞情況對手”時的表現。得分為零表示完美玩法,高分則説明欠佳。
實驗在五個遊戲上進行:兩種幻影井字棋變體、兩種不完全信息Hex變體以及説謊者骰子。最大的挑戰在於將可剝削性指標應用於這些包含多達300億個狀態的遊戲。Mohammadpour解釋道:“這就像觀察一個充滿不可見物體的黑暗房間,你需要弄清它們的位置和來源。”此前的研究通常將可剝削性用於規模小10萬倍的博弈。
結果表明,使用策略梯度方法訓練的神經網絡在可剝削性得分上優於基於博弈論算法訓練的神經網絡,在直接對戰中同樣勝出。研究團隊已將基準測試軟件免費公開,用户只需在常用基準測試集合OpenSpiel中添加一行代碼即可運行在普通筆記本電腦上。
儘管實驗涉及一些冷門遊戲,Farina強調其更廣泛的意義:“‘博弈’一詞實際上適用於任何多智能體戰略互動,因此研究教訓不僅限於娛樂遊戲。”共同作者Eugene Vinitsky補充道:“隱藏信息是現實世界的重要屬性,遍及軍事行動、交易場景和談判。改進這些博弈意味着我們也能在其他情境中做得更好。”
谷歌DeepMind的計算機科學家Ian Gemp(未參與研究)對此表示肯定:“這項工作提醒我們,現代化經典工具(如策略梯度方法)仍然是解決複雜戰略問題的有效途徑。”