2026-05-20站内改写1 分钟阅读更新: 2026-06-12

UCCI：校准不确定性实现成本最优的LLM级联路由

UCCI是一种校准优先的路由器，通过等渗回归将token级边际不确定性映射为每个查询的错误概率，并通过约束成本最小化选择升级阈值。在NER生产工作负载上，UCCI以micro-F1=0.91将推理成本降低31%，并将ECE从0.12降至0.03。

来源arXiv Machine Learning作者: Varun Kotte

大型语言模型（LLM）的级联和模型路由技术通过将简单查询分配给小型模型、将困难查询升级到大型模型，在降低推理成本方面展现出巨大潜力。然而，目前大多数部署的路由器依赖于未校准的置信度分数，并且需要针对每个工作负载手动调整阈值，这限制了其实际应用。针对这一问题，研究者提出了UCCI（Uncertainty Calibration for Cost-optimal Inference），一种以校准为先的路由方法。

UCCI的核心创新在于利用等渗回归（isotonic regression）将token级别的边际不确定性映射为每个查询的错误概率，然后通过约束成本最小化来确定最优的升级阈值。该方法基于三个明确的假设，证明了在校准分数上使用阈值策略可以达到成本最优，并且等渗回归在预期校准误差（ECE）上实现了O(n^{-1/3})的样本复杂度，为理论上的最优性提供了保证。

在实际验证中，研究团队在由4B和12B参数规模的指令微调LLM（部署于H100 GPU）服务的生产级命名实体识别（NER）工作负载上进行了测试，该工作负载包含75,000个查询。实验结果显示，UCCI在保持micro-F1分数为0.91的同时，将推理成本降低了31%（95%置信区间：[27%, 35%]），并将ECE从0.12降低到0.03。在相同的操作点下，UCCI的表现优于熵阈值方法、分裂共形路由（split-conformal routing）以及FrugalGPT风格的学习阈值方法。值得注意的是，所有级联结果均基于实际模型输出的端到端路由和测量的H100延迟，而非基于全局准确率或名义API价格的模拟，从而确保了结果的真实可靠性。

该工作为成本敏感的LLM路由提供了一种实用且高效的校准方法，在不牺牲性能的前提下显著降低了实际部署中的推理成本，对推动LLM的高效应用具有重要意义。