UCCI:校準不確定性實現成本最優的LLM級聯路由
UCCI是一種校準優先的路由器,通過等滲迴歸將token級邊際不確定性映射為每個查詢的錯誤概率,並通過約束成本最小化選擇升級閾值。在NER生產工作負載上,UCCI以micro-F1=0.91將推理成本降低31%,並將ECE從0.12降至0.03。
大型語言模型(LLM)的級聯和模型路由技術通過將簡單查詢分配給小型模型、將困難查詢升級到大型模型,在降低推理成本方面展現出巨大潛力。然而,目前大多數部署的路由器依賴於未校準的置信度分數,並且需要針對每個工作負載手動調整閾值,這限制了其實際應用。針對這一問題,研究者提出了UCCI(Uncertainty Calibration for Cost-optimal Inference),一種以校準為先的路由方法。
UCCI的核心創新在於利用等滲迴歸(isotonic regression)將token級別的邊際不確定性映射為每個查詢的錯誤概率,然後通過約束成本最小化來確定最優的升級閾值。該方法基於三個明確的假設,證明了在校準分數上使用閾值策略可以達到成本最優,並且等滲迴歸在預期校準誤差(ECE)上實現了O(n^{-1/3})的樣本複雜度,為理論上的最優性提供了保證。
在實際驗證中,研究團隊在由4B和12B參數規模的指令微調LLM(部署於H100 GPU)服務的生產級命名實體識別(NER)工作負載上進行了測試,該工作負載包含75,000個查詢。實驗結果顯示,UCCI在保持micro-F1分數為0.91的同時,將推理成本降低了31%(95%置信區間:[27%, 35%]),並將ECE從0.12降低到0.03。在相同的操作點下,UCCI的表現優於熵閾值方法、分裂共形路由(split-conformal routing)以及FrugalGPT風格的學習閾值方法。值得注意的是,所有級聯結果均基於實際模型輸出的端到端路由和測量的H100延遲,而非基於全局準確率或名義API價格的模擬,從而確保了結果的真實可靠性。
該工作為成本敏感的LLM路由提供了一種實用且高效的校準方法,在不犧牲性能的前提下顯著降低了實際部署中的推理成本,對推動LLM的高效應用具有重要意義。