人机协同上下文情感老虎机在短租动态定价中的应用:历史预热与审批门控在线学习之间的结构等价性
短租市场动态定价面临财务风险高、需可解释性、反馈稀疏等挑战。本文提出人机协同门控情感老虎机(HITL-GB)框架,算法给出价格建议,人类运营人员有权接受、修改或拒绝。研究表明,在审批约束下,历史定价数据(来自先前确定性策略)在结构上等同于用于初始化情感老虎机后验的在策略预热数据,从而避免数周至数月的冷启动期。在真实短租生产数据(匿名城市市场,2间房,2022年4月至2026年4月,1461个夜间定价场景)上验证,预热程序将有效冷启动从约150个场景压缩至约30个场景。该方法可推广至临床用药、信贷发放、内容审核、放射诊断等高风险的监管领域。
在短租市场中,动态定价是一个极具挑战性的问题。与传统的在线零售不同,短租定价决策涉及重大的财务风险——一次不合理的定价可能导致房间空置或收入损失,而运营者又需要算法具备可解释性,以便理解为何推荐某个价格。更棘手的是,市场反馈非常稀疏:每个可预订的夜晚只有一个预订结果,这使得在线学习算法难以快速积累经验。传统的在线学习算法,尤其是上下文情感老虎机,在冷启动阶段往往需要数周甚至数月才能收敛,这在实际应用中几乎不可行。
为了应对这些挑战,Oleg Miroshnichenko 在其发表于 arXiv 的论文中提出了一个人机协同的框架——人机协同门控情感老虎机(Human-in-the-Loop Gated Bandit, HITL-GB)。在这个框架中,一个上下文情感老虎机算法生成价格推荐,但最终决策权掌握在人类运营人员手中:他们可以接受、修改或拒绝算法的推荐。这种审批机制不仅保证了算法输出的合理性和可解释性,还意外地带来了一个重要的统计优势。
研究者证明,在审批约束下,以往由确定性策略收集的历史定价数据,在结构上等同于用于初始化情感老虎机后验分布的在策略预热数据。这意味着,运营者无需等待在线学习从零开始积累数据,而是可以直接利用已有的历史记录来启动学习过程,从而绕过漫长的冷启动期。这一发现的核心在于,人类审批实际上起到了一个门控作用,使得历史数据的收集过程与在策略学习的分布匹配,从而保证了数据结构上的等价性。
基于这一理论洞察,研究者形式化了审批门控的奖励信号,并推导出一个基于正则化岭回归的历史场景预热程序。为了验证其有效性,他们在真实的短租生产数据上进行了实验。数据来自一个匿名的城市市场,包含两间房间从2022年4月到2026年4月的1461个夜间定价场景。实验结果显示,对于层级分解汤普森采样(HF-TS)系列算法,该预热程序将有效冷启动从约150个场景大幅压缩至约30个场景。
此外,研究者强调这一结构等价结果具有领域无关性。任何法律或运营上要求人类审批的高风险场景——例如临床药物剂量调整、信贷审批发放、内容审核以及放射诊断——都满足相同的条件,并能从相同的预热策略中获益。这意味着,在受监管的行业中,强制性的监督机制不再是部署机器学习模型的瓶颈,反而成为一种可以利用的统计资产。这一工作为将人类专家经验与机器学习相结合提供了坚实的理论依据和实用的工具。