邁向可靠的LLM驅動代理工作流設計:優化延遲-可靠性-成本權衡
本文分析了大型語言模型(LLM)驅動的代理工作流中延遲、可靠性和成本之間的基本權衡,提出了一種參數化指數可靠性函數來建模LLM代理的計算投入與輸出質量關係,並推導了最優令牌分配策略(注水算法)以及影子價格表徵。
文章情報
要點
- LLM代理工作流面臨延遲、可靠性和成本的三難權衡。
- 提出基於指數可靠性函數的性能模型,量化計算投入與輸出質量的關係。
- 提出注水令牌分配策略,在延遲和成本約束下優化工作流可靠性。
為甚麼重要
這條新聞值得關注,因為LLM代理工作流面臨延遲、可靠性和成本的三難權衡。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
現代人工智能系統越來越依賴於由多個交互代理組成的工作流,其中一些代理由大型語言模型(LLM)驅動,而另一些則由常規計算模塊驅動。這種設計雖然靈活,卻引入了延遲、可靠性和成本之間的複雜權衡。一篇發表於arXiv的論文(ID: 2605.23929)系統分析了這一三角關係,並提出了優化設計方法。
論文作者Ya-Ting Yang和Quanyan Zhu首先為LLM代理和非LLM代理建立了性能模型。對於LLM代理,他們引入了一種參數化指數可靠性函數,該函數將推理和輸出令牌的計算投入與輸出質量聯繫起來。這一模型的關鍵洞察是:增加令牌分配(即更多推理計算)可以提升可靠性,但邊際收益遞減。該模型基於大量實驗數據,能夠準確刻畫不同LLM在特定任務上的可靠性曲線。
基於該模型,論文研究了在延遲和成本約束下設計順序工作流的問題。主要成果包括一個“注水”令牌分配策略:該策略類似於通信中的注水算法,在不同代理之間動態分配令牌預算,以最大化整體工作流可靠性。具體而言,算法會根據各代理的可靠性增益函數,將令牌分配給邊際收益最高的環節,直至預算耗盡。同時,論文還以影子價格的形式刻畫了最優工作流可靠性的邊界條件,為系統設計者提供了量化的決策依據。例如,影子價格可以告訴你增加一個單位的延遲預算能帶來多少可靠性提升。
這項研究為LLM代理系統的實際部署提供了理論指導,尤其適用於對延遲和成本敏感的場景,如實時交互系統或資源受限的邊緣設備。論文還討論了在實際系統中如何估計可靠性函數參數的方法,以及非順序工作流擴展的初步思路。未來,該框架有望擴展到更復雜的非順序工作流和多目標優化場景,例如同時考慮能源消耗和公平性問題。