UCCI:校准不确定性实现成本最优的LLM级联路由
UCCI是一种校准优先的路由器,通过等渗回归将token级边际不确定性映射为每个查询的错误概率,并通过约束成本最小化选择升级阈值。在NER生产工作负载上,UCCI以micro-F1=0.91将推理成本降低31%,并将ECE从0.12降至0.03。
大型语言模型(LLM)的级联和模型路由技术通过将简单查询分配给小型模型、将困难查询升级到大型模型,在降低推理成本方面展现出巨大潜力。然而,目前大多数部署的路由器依赖于未校准的置信度分数,并且需要针对每个工作负载手动调整阈值,这限制了其实际应用。针对这一问题,研究者提出了UCCI(Uncertainty Calibration for Cost-optimal Inference),一种以校准为先的路由方法。
UCCI的核心创新在于利用等渗回归(isotonic regression)将token级别的边际不确定性映射为每个查询的错误概率,然后通过约束成本最小化来确定最优的升级阈值。该方法基于三个明确的假设,证明了在校准分数上使用阈值策略可以达到成本最优,并且等渗回归在预期校准误差(ECE)上实现了O(n^{-1/3})的样本复杂度,为理论上的最优性提供了保证。
在实际验证中,研究团队在由4B和12B参数规模的指令微调LLM(部署于H100 GPU)服务的生产级命名实体识别(NER)工作负载上进行了测试,该工作负载包含75,000个查询。实验结果显示,UCCI在保持micro-F1分数为0.91的同时,将推理成本降低了31%(95%置信区间:[27%, 35%]),并将ECE从0.12降低到0.03。在相同的操作点下,UCCI的表现优于熵阈值方法、分裂共形路由(split-conformal routing)以及FrugalGPT风格的学习阈值方法。值得注意的是,所有级联结果均基于实际模型输出的端到端路由和测量的H100延迟,而非基于全局准确率或名义API价格的模拟,从而确保了结果的真实可靠性。
该工作为成本敏感的LLM路由提供了一种实用且高效的校准方法,在不牺牲性能的前提下显著降低了实际部署中的推理成本,对推动LLM的高效应用具有重要意义。