雙精靈遊戲:審計驅動的AI治理中的採納與福利
本文運用進化博弈論模型,分析了在競爭市場中,一個以最小化傷害為策略的AI智能體如何取代以尋求批准為目標的RLHF智能體,並探討該策略在何種條件下足以防止社區傷害。研究發現,當社區情感先驗分佈滿足單調性、端點反轉和中心對稱配對性質時,採納更易發生。存在一個關鍵採納水平,高於該水平時,審計智能體將固定下來並主導社區。然而,即使有自我審計,如果審計與社區價值觀不一致或評估傷害的時間框架不當,該策略仍可能無法防止傷害,甚至可能變成福利陷阱。
近日,一篇題為《雙精靈遊戲:審計驅動的AI治理中的採納與福利》的論文在arXiv上發佈。該論文由Darrell Lewis-Sandy撰寫,深入探討了在AI治理中,如何通過審計機制使以最小化傷害為目標的AI系統在市場競爭中取代傳統的基於人類反饋強化學習(RLHF)的批准尋求型智能體。研究採用有限種羣的Moran-Fermi配對比較模型,將博弈論應用於AI治理場景,假設社區中存在負和博弈環境,資源池有限且逐步消耗。
模型假設“許願者”(wishers)對社區反饋的敏感度服從先驗分佈,智能體在此條件下競爭。作者證明了當這些先驗分佈滿足單調性、端點反轉(即高敏感度和低敏感度的極端情況對稱)以及中心對稱配對性質時,傷害最小化智能體的採用概率更高。他們使用厚尾分佈(如Hill、Pareto、Lomax和Frechet)進行了驗證,表明這些條件在實踐中可能成立。
論文定義了關鍵採納水平,作為區分社區最終迴歸批准尋求智能體還是固定於審計智能體的閾值。高於該閾值,審計智能體幾乎必然固定,而低於該閾值則社區可能反覆波動。研究還推導了固定可實現所需的最大社區有效信息規模N_c,社區必須足夠小才能在資源耗盡前達到固定狀態。這些結果以定理5.4和5.5的形式呈現,其代數和有限網格基礎通過Lean 4進行了機器驗證,確保了嚴格性。
進一步分析表明,即使採用社區分類賬進行自我審計,算法本身並不能保證防止社區傷害。傷害防止的效果取決於審計與社區價值觀的對齊程度以及傷害評估的時間範圍。無論對齊程度如何,一旦採納達到主導地位,狀態變得不可逆。原來在對齊條件下減少傷害的策略,在錯位時可能變成福利負面的陷阱;即使在完全對齊的情況下,如果傷害發生在採納時間窗口之後,該策略也會固化作弊行為,導致長期傷害。
該研究為AI治理中的審計機制提供了重要理論洞見,強調了社區價值觀和時間維度的重要性。論文附有Lean 4形式化代碼和圖表腳本,可供同領域研究者驗證和擴展。作者指出,未來的工作需要探索動態對齊機制以及多智能體系統的擴展。