人機協同上下文情感老虎機在短租動態定價中的應用:歷史預熱與審批門控線上學習之間的結構等價性
短租市場動態定價面臨財務風險高、需可解釋性、反饋稀疏等挑戰。本文提出人機協同門控情感老虎機(HITL-GB)框架,演算法給出價格建議,人類運營人員有權接受、修改或拒絕。研究表明,在審批約束下,歷史定價資料(來自先前確定性策略)在結構上等同於用於初始化情感老虎機後驗的在策略預熱資料,從而避免數週至數月的冷啟動期。在真實短租生產資料(匿名城市市場,2間房,2022年4月至2026年4月,1461個夜間定價場景)上驗證,預熱程式將有效冷啟動從約150個場景壓縮至約30個場景。該方法可推廣至臨床用藥、信貸發放、內容稽核、放射診斷等高風險的監管領域。
在短租市場中,動態定價是一個極具挑戰性的問題。與傳統的線上零售不同,短租定價決策涉及重大的財務風險——一次不合理的定價可能導致房間空置或收入損失,而運營者又需要演算法具備可解釋性,以便理解為何推薦某個價格。更棘手的是,市場反饋非常稀疏:每個可預訂的夜晚只有一個預訂結果,這使得線上學習演算法難以快速積累經驗。傳統的線上學習演算法,尤其是上下文情感老虎機,在冷啟動階段往往需要數週甚至數月才能收斂,這在實際應用中幾乎不可行。
為了應對這些挑戰,Oleg Miroshnichenko 在其發表於 arXiv 的論文中提出了一個人機協同的框架——人機協同門控情感老虎機(Human-in-the-Loop Gated Bandit, HITL-GB)。在這個框架中,一個上下文情感老虎機演算法生成價格推薦,但最終決策權掌握在人類運營人員手中:他們可以接受、修改或拒絕演算法的推薦。這種審批機制不僅保證了演算法輸出的合理性和可解釋性,還意外地帶來了一個重要的統計優勢。
研究者證明,在審批約束下,以往由確定性策略收集的歷史定價資料,在結構上等同於用於初始化情感老虎機後驗分佈的在策略預熱資料。這意味著,運營者無需等待線上學習從零開始積累資料,而是可以直接利用已有的歷史記錄來啟動學習過程,從而繞過漫長的冷啟動期。這一發現的核心在於,人類審批實際上起到了一個門控作用,使得歷史資料的收集過程與在策略學習的分佈匹配,從而保證了資料結構上的等價性。
基於這一理論洞察,研究者形式化了審批門控的獎勵訊號,並推匯出一個基於正則化嶺迴歸的歷史場景預熱程式。為了驗證其有效性,他們在真實的短租生產資料上進行了實驗。資料來自一個匿名的城市市場,包含兩間房間從2022年4月到2026年4月的1461個夜間定價場景。實驗結果顯示,對於層級分解湯普森取樣(HF-TS)系列演算法,該預熱程式將有效冷啟動從約150個場景大幅壓縮至約30個場景。
此外,研究者強調這一結構等價結果具有領域無關性。任何法律或運營上要求人類審批的高風險場景——例如臨床藥物劑量調整、信貸審批發放、內容稽核以及放射診斷——都滿足相同的條件,並能從相同的預熱策略中獲益。這意味著,在受監管的行業中,強制性的監督機制不再是部署機器學習模型的瓶頸,反而成為一種可以利用的統計資產。這一工作為將人類專家經驗與機器學習相結合提供了堅實的理論依據和實用的工具。