2026-05-26 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

多少思考才足夠？量化和理解大模型推理中的冗餘

該研究量化了推理型大語言模型在長鏈思考中的冗餘程度，發現61%至93%的推理步驟可以截斷而不影響正確性，並證明這種冗餘是長度無關結果獎勵的結構性後果，而非模型缺陷。

來源arXiv AI作者: Zhiyuan Zhai, Xinkai You, Wenjing Yan, Xin Wang

最新研究揭示了推理型大語言模型（LLM）在解決問題時存在大量不必要的思考步驟。來自一篇題為《How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning》的論文，對前沿推理模型在數學問題上的推理過程進行了系統量化。研究人員開發了一個形式化指標——推理冗餘度，定義為一條正確推理軌跡中，從末尾開始可以被截斷而模型仍能輸出正確答案的步驟比例。透過在四個前沿推理模型（包括o1、Qwen等）和兩個數學基準（MATH-500和AIME）上的大規模實驗，他們發現步級冗餘度出奇地高：在8個（模型，基準）組合中，冗餘度介於61%到93%之間。更令人驚訝的是，在六種條件下，中位關鍵字首（即必須保留的最少步驟）僅為單個步驟。即使在難度最高的Level-5問題上，所有模型的冗餘度也高達46%至85%。研究還驗證了該發現對不同的評判模型族具有魯棒性。

但論文的核心貢獻在於理論證明。作者嚴格證明了這種冗餘並非模型特定的漏洞或訓練不充分，而是當前訓練正規化的結構性後果。由於訓練中使用的獎勵函式只取決於最終答案的正確性，而與推理鏈的長度無關，因此任何基於此類獎勵訊號的最佳化方法（無論是強化學習還是蒸餾）都無法使模型在有限期望步驟內達到最優停止。這意味著，在長度無關結果獎勵的設定下，模型必然會產生冗餘思考，且無法透過後訓練消除。這一結論獨立於具體的演算法、模型架構或資料分佈。

研究團隊指出，該發現挑戰了“鏈式思考越長越準確”的普遍假設，併為開發更高效的推理模型指明瞭方向——未來模型可能需要學習何時停止思考，而非無休止地反思和驗證。論文的相關程式碼已在GitHub上開源。這項研究不僅為理解LLM的推理行為提供了理論基石，也對實際部署中的推理成本、延遲最佳化以及下一代模型設計具有重要啟示。