AI News HubLIVE
站内改写2 分で読了

UCCI:費用最適なLLMカスケードルーティングのための校正された不確実性

UCCIは、アイソトニック回帰を用いてトークンレベルのマージン不確実性をクエリごとの誤差確率にマッピングし、制約付きコスト最小化によってエスカレーションしきい値を選択する校正優先ルーターです。NER本番ワークロードにおいて、UCCIはmicro-F1=0.91で推論コストを31%削減し、ECEを0.12から0.03に低減します。

ソースarXiv Machine Learning著者: Varun Kotte

大規模言語モデル(LLM)のカスケードおよびモデルルーティングは、簡単なクエリを小規模モデルに送り、困難なクエリを大規模モデルにエスカレーションすることで、推論コストの削減を約束します。しかし、現在展開されているほとんどのルーターは未校正の信頼度スコアを使用しており、ワークロードごとにしきい値を調整する必要があるため、実用上の課題があります。この問題に対して、UCCI(Uncertainty Calibration for Cost-optimal Inference)が提案されました。UCCIは校正を優先するルーターであり、アイソトニック回帰を用いてトークンレベルのマージン不確実性をクエリごとの誤差確率にマッピングし、制約付きコスト最小化によってエスカレーションしきい値を選択します。

UCCIは3つの明示的な仮定の下で、校正されたスコア上のしきい値ポリシーがコスト最適であることを示し、アイソトニック校正が期待校正誤差(ECE)に対してO(n^{-1/3})のサンプル複雑性を達成することを理論的に証明しています。これにより、手動調整なしで理論的に最適な性能を発揮できることが保証されます。

実験では、H100 GPU上で4Bおよび12Bパラメータの命令チューニング済みLLMがサービスを提供する75,000クエリの本番名前付きエンティティ認識(NER)ワークロードを使用しました。結果として、UCCIはmicro-F1=0.91を維持しながら推論コストを31%(95%信頼区間:[27%, 35%])削減し、ECEを0.12から0.03に低減しました。同じ動作点で、UCCIはエントロピーしきい値、スプリットコンフォーマルルーティング、およびFrugalGPTスタイルの学習しきい値を上回りました。さらに、すべてのカスケード結果は、グローバル精度や名目API価格からのシミュレーションではなく、実際のモデル出力と測定されたH100レイテンシを使用したエンドツーエンドのルーティングに基づいており、結果の信頼性を高めています。

この研究は、コストに敏感なLLMルーティングのための実用的な校正手法を提供し、高精度を維持しながら実際のデプロイメントでの推論コストを大幅に削減する道を開きます。