2026-06-16站内改写1 分钟阅读更新: 2026-06-16

嵌入模型路由的策略遗憾：具有低秩专家的上下文赌博机

本文形式化地将嵌入模型路由建模为具有低秩专家的对抗性上下文线性赌博机，提出一种对数二次策略类以实现高效在线学习，并介绍了Hypentropy策略梯度（HPG）算法，该算法在避免维度灾难的同时实现次线性遗憾。

来源arXiv Machine Learning作者: Yan Dai, Negin Golrezaei, Patrick Jaillet

现代推荐系统日益依赖将多样化查询动态路由到多个嵌入模型。尽管这一实践具有重要意义，但在对抗性查询、赌博机反馈和模型有限可观测性等现实条件下，该问题尚未得到充分理解。本文作者Yan Dai等人将其形式化为一个具有低秩专家的对抗性上下文线性赌博机问题：上下文是查询，动作是物品，专家是工作在低秩潜在表示空间上的嵌入模型。

首先，作者指出标准遗憾概念存在结构错误指定或统计难处理性问题，并识别出一类对数二次策略类，它既能表达查询依赖的模型路由，又足够结构化以实现高效在线学习。其次，他们提出了一种称为Hypentropy Policy Gradient (HPG)的策略梯度算法。该算法在信息不完全的情况下自适应地适应未知的低秩结构，并达到Õ(s√(MT))的线性化策略遗憾——其中s、M和T分别是专家的内在秩、模型数量和轮数——从而避免了维度灾难。最后，他们还提供了HPG的高效无参数实现。

这项工作为嵌入模型路由问题提供了理论上的严格形式化和实用的算法，有望提升推荐系统在复杂环境下的鲁棒性和效率。论文于2026年6月12日提交至arXiv，并归类于机器学习（cs.LG）、人工智能（cs.AI）和统计机器学习（stat.ML）。