自进化模型路由器:可组合六层调度架构详解
一种可组合的六层调度架构,通过策略执行、提示感知检索、规则过滤、预测重排、上下文赌博机学习和挑战者探索,动态选择语言模型,并具有优雅降级和持续在线/离线学习能力。
自进化模型路由器:可组合六层调度架构详解
VDF AI Networks近日发布了一份白皮书,详细阐述了其自进化模型路由器(Self-Evolving Model Router)的设计理念与技术实现。该路由器旨在解决企业级大语言模型(LLM)部署中模型选择的动态性问题,通过一个可组合的六层调度架构,将模型选择从静态配置转变为持续学习的决策过程。
核心问题与动机
在企业环境中,模型选择通常是一个静态配置:运营人员将模型绑定到工作负载,然后接受该选择。然而,实际的生产环境是非平稳的:提供商的配额会波动,共享云端的延迟会漂移,新模型家族每周出现,成本-质量-能源前沿不断移动。静态绑定因此是一种缓慢失效的决策。传统解决方法包括固定最安全模型支付溢价、固定最便宜模型接受方差,或在静态调度器上手动进行A/B测试,但这些方法都无法规模化扩展。
六层调度架构
自进化模型路由器的核心是一个六层调度栈,每一层都独立进行功能门控,并在信号不可用时优雅降级到下一层简单策略:
- 策略执行:这是唯一可以返回不可恢复错误的层级。它处理固定模型和受监管领域的允许列表,确保合规性。
- 提示感知检索:基于提示嵌入进行候选模型短列表检索。
- 规则过滤:使用多目标评分器对候选模型进行过滤。
- 预测重排名:基于每个模型的历史数据(如延迟、吞吐量)进行预测重排名。
- 上下文赌博机选择:使用每个臂独立的线性UCB学习器(LinUCB)进行选择。每个请求被编码为64维稀疏哈希特征,探索参数α设为0.8。
- 挑战者探索:将一小部分流量(约2%)进行双路路由,用于实时偏好学习。
在线与离线学习
路由器是自进化的,体现在三个相互关联的方面:在线学习方面,每个完成的请求都成为一次奖励观察,通过Sherman-Morrison秩一更新来更新所选臂的状态;失败被折叠为有界惩罚(奖励为0.15)而非丢弃;离线训练器则批量处理运行保险库数据,重新推导先验分布,并以原子方式切换到在线策略中。这种双重学习机制确保了路由器能够持续适应环境变化。
优雅降级与故障转移
优雅降级是设计的关键约束。每个层级都有自己的信号源;当信号不可用时,该层级会失败开放(fail open)到下一层策略。故障转移是枚举式的而非重新路由:路由器返回最多五个有序候选,发动机依次尝试直到成功。排序优先考虑提供商多样性的候选项,以应对相关故障。
与相关工作比较
白皮书将本工作与现有LLM路由文献进行了比较。FrugalGPT将路由视为成本-质量级联;Hybrid LLM使用难度估计器在强模型和弱模型之间切换;RouteLLM从偏好数据中学习路由器。这些工作都将路由智能集中在一个学习函数和一个目标轴上。而本工作的贡献是正交的:它描述了一个多目标、可组合的调度器,其中学习函数是六个层级之一。
结论与展望
该白皮书目前为设计文档,并未提供实证性能数据,但详细描述了设计参数和降级包络。对于希望在动态环境中优化模型选择的企业而言,这种自进化路由器提供了一种有吸引力的解决方案。未来工作可能包括更详细的实证评估和进一步的算法优化。