嵌入模型路由的策略遺憾:具有低秩專家的上下文賭博機
本文形式化地將嵌入模型路由建模為具有低秩專家的對抗性上下文線性賭博機,提出一種對數二次策略類以實現高效線上學習,並介紹了Hypentropy策略梯度(HPG)演算法,該演算法在避免維度災難的同時實現次線性遺憾。
現代推薦系統日益依賴將多樣化查詢動態路由到多個嵌入模型。儘管這一實踐具有重要意義,但在對抗性查詢、賭博機反饋和模型有限可觀測性等現實條件下,該問題尚未得到充分理解。本文作者Yan Dai等人將其形式化為一個具有低秩專家的對抗性上下文線性賭博機問題:上下文是查詢,動作是物品,專家是工作在低秩潛在表示空間上的嵌入模型。
首先,作者指出標準遺憾概念存在結構錯誤指定或統計難處理性問題,並識別出一類對數二次策略類,它既能表達查詢依賴的模型路由,又足夠結構化以實現高效線上學習。其次,他們提出了一種稱為Hypentropy Policy Gradient (HPG)的策略梯度演算法。該演算法在資訊不完全的情況下自適應地適應未知的低秩結構,並達到Õ(s√(MT))的線性化策略遺憾——其中s、M和T分別是專家的內在秩、模型數量和輪數——從而避免了維度災難。最後,他們還提供了HPG的高效無引數實現。
這項工作為嵌入模型路由問題提供了理論上的嚴格形式化和實用的演算法,有望提升推薦系統在複雜環境下的魯棒性和效率。論文於2026年6月12日提交至arXiv,並歸類於機器學習(cs.LG)、人工智慧(cs.AI)和統計機器學習(stat.ML)。