AI News HubLIVE
站内改写

多少思考才足夠?量化和理解大模型推理中的冗餘

該研究量化了推理型大語言模型在長鏈思考中的冗餘程度,發現61%至93%的推理步驟可以截斷而不影響正確性,並證明這種冗餘是長度無關結果獎勵的結構性後果,而非模型缺陷。

文章情報

工程師進階

要點

  • 提出推理冗餘的正式定義:正確軌跡中可截斷的尾部步驟比例
  • 在四個前沿模型和兩個數學基準上測得冗餘度高達61%-93%
  • 證明冗餘是長度無關結果獎勵的結構性結果,無法透過最佳化消除
  • 即使在最難的Level-5問題上,冗餘度仍達46%-85%

為什麼重要

這條新聞值得關注,因為提出推理冗餘的正式定義:正確軌跡中可截斷的尾部步驟比例。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

最新研究揭示了推理型大語言模型(LLM)在解決問題時存在大量不必要的思考步驟。來自一篇題為《How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning》的論文,對前沿推理模型在數學問題上的推理過程進行了系統量化。研究人員開發了一個形式化指標——推理冗餘度,定義為一條正確推理軌跡中,從末尾開始可以被截斷而模型仍能輸出正確答案的步驟比例。透過在四個前沿推理模型(包括o1、Qwen等)和兩個數學基準(MATH-500和AIME)上的大規模實驗,他們發現步級冗餘度出奇地高:在8個(模型,基準)組合中,冗餘度介於61%到93%之間。更令人驚訝的是,在六種條件下,中位關鍵字首(即必須保留的最少步驟)僅為單個步驟。即使在難度最高的Level-5問題上,所有模型的冗餘度也高達46%至85%。研究還驗證了該發現對不同的評判模型族具有魯棒性。

但論文的核心貢獻在於理論證明。作者嚴格證明了這種冗餘並非模型特定的漏洞或訓練不充分,而是當前訓練正規化的結構性後果。由於訓練中使用的獎勵函式只取決於最終答案的正確性,而與推理鏈的長度無關,因此任何基於此類獎勵訊號的最佳化方法(無論是強化學習還是蒸餾)都無法使模型在有限期望步驟內達到最優停止。這意味著,在長度無關結果獎勵的設定下,模型必然會產生冗餘思考,且無法透過後訓練消除。這一結論獨立於具體的演算法、模型架構或資料分佈。

研究團隊指出,該發現挑戰了“鏈式思考越長越準確”的普遍假設,併為開發更高效的推理模型指明瞭方向——未來模型可能需要學習何時停止思考,而非無休止地反思和驗證。論文的相關程式碼已在GitHub上開源。這項研究不僅為理解LLM的推理行為提供了理論基石,也對實際部署中的推理成本、延遲最佳化以及下一代模型設計具有重要啟示。