非可觀測狀態與受限決策週期的馬爾可夫強盜學習
本文研究了在狀態不可觀測且決策週期可能受限的馬爾可夫強盜問題中的遺憾最小化。引入了自退化馬爾可夫強盜模型,並證明在沒有先驗知識時,罕見切換臂的算法的遺憾必然超對數增長。設計的UCB-NOM算法實現了近似對數遺憾,且在給定先驗信息時可達到O(log T)遺憾。
近日,一篇題為《Learning in Markovian bandits with non-observable states and constrained decision epochs》的論文在arXiv上發佈,由Thomas Hira等四位作者共同完成。該論文深入研究了在狀態不可觀測且決策週期可能受限的馬爾可夫強盜(Markovian bandits)問題中的遺憾最小化。傳統強盜算法通常假設決策者能直接觀察每個臂的狀態,或決策時機不受限制,但現實應用中這兩者往往難以滿足。論文聚焦於一種“純”遺憾基準,即比較學習算法與最優純策略的性能差異。純策略類似於隨機強盜中的最優策略,從頭到尾始終選擇同一最佳臂,從不切換。
作者首先引入了一種新的強盜模型——自退化馬爾可夫強盜(self-degrading Markovian bandits),這是對經典靜止馬爾可夫強盜(rested Markovian bandits)的一種推廣。在該模型中,每個臂的狀態隨選擇而退化,且純策略始終是漸近最優的。這一發現為後續理論分析奠定了基礎。
論文的核心理論貢獻在於證明了在缺乏任何先驗知識的情況下,任何不頻繁切換臂的算法都必然面臨超對數遺憾增長,即遺憾下界為ω(log T),其中T是學習週期。這意味着傳統的對數遺憾界在這種環境中是不可實現的。然而,作者並未止步於此,他們設計了一種基於UCB(上置信界)的樂觀算法UCB-NOM,其遺憾接近對數水平,從而彌合了理論與實際之間的差距。
更令人振奮的是,當算法預先知道一個關於臂偏差函數(bias functions)的界時,UCB-NOM可以嚴格實現O(log T)的遺憾,並且最壞情況下的遺憾界為O(√(T log T))。這些界與底層馬爾可夫鏈的狀態數無關,充分體現了算法的魯棒性和可擴展性。論文的結論表明,在自退化馬爾可夫強盜中,狀態非可觀測性只是一個輕微的不便,通過精心設計的算法和適當的先驗信息,仍能獲得接近最優的性能。該研究為推薦系統、動態定價和臨牀實驗等應用提供了重要的理論指導。