共形思維:計算預算下推理的風險控制
推理大語言模型(LLM)通過測試時擴展實現數據集級準確率隨token預算增加而提升,這推動了自適應推理的發展——僅在能提高可靠性時消耗token,否則儘早停止。然而,設置token預算和自適應推理閾值涉及根本的風險-準確率權衡。本文將此問題重新定義為風險控制,即在限制錯誤率的同時最小化計算量。框架引入上閾值(在模型自信時停止推理,避免錯誤輸出)和新型參數化下閾值(提前停止無法解決的實例,避免過早停止)。給定目標風險和驗證集,使用無分佈風險控制來最優指定這些停止機制。在多種推理任務和模型上的實驗證明了該方法在滿足用户指定風險目標的同時,實現了計算效率提升。
推理大語言模型(LLM)在測試時通過增加token預算可以提升準確率,這促使研究者探索自適應推理策略:僅在推理能提高可靠性時消耗計算資源,否則儘早停止。然而,如何設定合理的token預算以及自適應推理的閾值是一個實際挑戰,涉及風險與準確率之間的根本權衡。來自約翰霍普金斯大學和蘋果公司的研究團隊提出了一種名為“共形思維”(Conformal Thinking)的新框架,將預算設置問題重新定義為風險控制問題,旨在將錯誤率控制在用户指定範圍內的同時,最小化計算開銷。
該框架引入了兩種停止機制:上閾值和下閾值。上閾值在模型對當前推理結果高度自信時提前停止推理,從而避免因過度計算而產生錯誤輸出;下閾值則是一個參數化的新型機制,用於在模型認定問題無法解決時提前終止,避免不必要的計算浪費。研究者利用無分佈風險控制方法,在給定目標風險和驗證集的情況下,最優地設定這些停止閾值。這種方法不依賴於對數據分佈的具體假設,具有廣泛的適用性。
實驗在多種推理任務和模型上展開,包括數學推理和常識推理等。結果表明,“共形思維”框架能夠有效地控制錯誤率,同時顯著提升計算效率。特別是下閾值和集成停止機制的應用,進一步增強了性能。該研究為LLM推理的計算預算管理提供了一種原則性的方法,有望在資源受限的實際場景中發揮重要作用。相關代碼已在GitHub上開源,可供社區進一步探索和應用。