2026-05-20站内改写1 分鐘閱讀更新: 2026-06-12

UCCI：校準不確定性實現成本最優的LLM級聯路由

UCCI是一種校準優先的路由器，通過等滲迴歸將token級邊際不確定性映射為每個查詢的錯誤概率，並通過約束成本最小化選擇升級閾值。在NER生產工作負載上，UCCI以micro-F1=0.91將推理成本降低31%，並將ECE從0.12降至0.03。

來源arXiv Machine Learning作者: Varun Kotte

大型語言模型（LLM）的級聯和模型路由技術通過將簡單查詢分配給小型模型、將困難查詢升級到大型模型，在降低推理成本方面展現出巨大潛力。然而，目前大多數部署的路由器依賴於未校準的置信度分數，並且需要針對每個工作負載手動調整閾值，這限制了其實際應用。針對這一問題，研究者提出了UCCI（Uncertainty Calibration for Cost-optimal Inference），一種以校準為先的路由方法。

UCCI的核心創新在於利用等滲迴歸（isotonic regression）將token級別的邊際不確定性映射為每個查詢的錯誤概率，然後通過約束成本最小化來確定最優的升級閾值。該方法基於三個明確的假設，證明了在校準分數上使用閾值策略可以達到成本最優，並且等滲迴歸在預期校準誤差（ECE）上實現了O(n^{-1/3})的樣本複雜度，為理論上的最優性提供了保證。

在實際驗證中，研究團隊在由4B和12B參數規模的指令微調LLM（部署於H100 GPU）服務的生產級命名實體識別（NER）工作負載上進行了測試，該工作負載包含75,000個查詢。實驗結果顯示，UCCI在保持micro-F1分數為0.91的同時，將推理成本降低了31%（95%置信區間：[27%, 35%]），並將ECE從0.12降低到0.03。在相同的操作點下，UCCI的表現優於熵閾值方法、分裂共形路由（split-conformal routing）以及FrugalGPT風格的學習閾值方法。值得注意的是，所有級聯結果均基於實際模型輸出的端到端路由和測量的H100延遲，而非基於全局準確率或名義API價格的模擬，從而確保了結果的真實可靠性。

該工作為成本敏感的LLM路由提供了一種實用且高效的校準方法，在不犧牲性能的前提下顯著降低了實際部署中的推理成本，對推動LLM的高效應用具有重要意義。