AI News HubLIVE
站内改写1 分鐘閱讀

UCCI:校準不確定性實現成本最優的LLM級聯路由

UCCI是一種校準優先的路由器,透過等滲迴歸將token級邊際不確定性對映為每個查詢的錯誤機率,並透過約束成本最小化選擇升級閾值。在NER生產工作負載上,UCCI以micro-F1=0.91將推理成本降低31%,並將ECE從0.12降至0.03。

來源arXiv Machine Learning作者: Varun Kotte

大型語言模型(LLM)的級聯和模型路由技術透過將簡單查詢分配給小型模型、將困難查詢升級到大型模型,在降低推理成本方面展現出巨大潛力。然而,目前大多數部署的路由器依賴於未校準的置信度分數,並且需要針對每個工作負載手動調整閾值,這限制了其實際應用。針對這一問題,研究者提出了UCCI(Uncertainty Calibration for Cost-optimal Inference),一種以校準為先的路由方法。

UCCI的核心創新在於利用等滲迴歸(isotonic regression)將token級別的邊際不確定性對映為每個查詢的錯誤機率,然後透過約束成本最小化來確定最優的升級閾值。該方法基於三個明確的假設,證明了在校準分數上使用閾值策略可以達到成本最優,並且等滲迴歸在預期校準誤差(ECE)上實現了O(n^{-1/3})的樣本複雜度,為理論上的最優性提供了保證。

在實際驗證中,研究團隊在由4B和12B引數規模的指令微調LLM(部署於H100 GPU)服務的生產級命名實體識別(NER)工作負載上進行了測試,該工作負載包含75,000個查詢。實驗結果顯示,UCCI在保持micro-F1分數為0.91的同時,將推理成本降低了31%(95%置信區間:[27%, 35%]),並將ECE從0.12降低到0.03。在相同的操作點下,UCCI的表現優於熵閾值方法、分裂共形路由(split-conformal routing)以及FrugalGPT風格的學習閾值方法。值得注意的是,所有級聯結果均基於實際模型輸出的端到端路由和測量的H100延遲,而非基於全域性準確率或名義API價格的模擬,從而確保了結果的真實可靠性。

該工作為成本敏感的LLM路由提供了一種實用且高效的校準方法,在不犧牲效能的前提下顯著降低了實際部署中的推理成本,對推動LLM的高效應用具有重要意義。