AI News HubLIVE
站內改寫1 分鐘閱讀

具有雙向信息不對稱的情景賭博機監督博弈

該論文提出一個情景賭博機團隊博弈模型,研究人類與AI之間雙向私人信息下的運行時監督,並給出了團隊最優和短視規則的精確表徵,揭示了可避免傷害的區間以及非可信監督溝通的代價。

來源arXiv AI作者: Yunjin Tong

一篇新的研究論文《具有雙向信息不對稱的情景賭博機監督博弈》由Yunjin Tong提交至arXiv,於2026年6月30日發佈。該論文聚焦於運行時人類對AI代理的監督問題,其中雙方均持有私人信息:人類私下知曉自身的獎勵函數,而AI則瞭解其提議行動的質量。這種不對稱性在自動駕駛機器人或軟件代理檢查了人類監督員無法直接評估的情形時自然產生。論文在合作逆強化學習(CIRL)和監督博弈的基礎上,引入了一個具有雙向不對稱信息的情景賭博機團隊博弈,並設計了“行動/詢問/信任/監督”接口。賭博機結構消除了物理狀態轉移,從而能夠給出精確的單次表徵,這在完全POMDP設定中僅能作為猜想,儘管共同信念在回合間仍是動態控制的狀態。作者給出了兩種單次表徵:團隊最優和一種符合行為直覺的短視規則。兩者之間的差距構成一塊“可避免的傷害”:即AI私下知道提議行動有害且關停會有幫助,但短視的人類因信任先驗而拒絕監督的區域。論文表明,這一差距正是非可信監督溝通的代價,並給出了動態回合中通過被動學習和主動信號(帶有一期滯後的監督響應)如何解決該問題的部分分析。該研究為人工智能安全和人機協作提供了理論洞見,特別是在需要平衡人類監督侷限與AI自主性的場景中。論文的學科分類為人工智能(cs.AI)和計算機科學與博弈論(cs.GT)。