AI News HubLIVE
站内改写1 分鐘閱讀

思考超越答案:評估大型推理模型中的有害過度思考

大型推理模型透過增加推理步驟提升效能,但研究表明,在獲得正確答案後繼續推理可能導致偏離,引入有害過度思考的概念。透過字首軌跡評估,發現早期停止正確推理可提升準確率高達21%,而常見效率策略無法緩解有害過度思考。

來源arXiv AI作者: Simone Caldarella, Davide Talon, Rahaf Aljundi, Elisa Ricci, Massimiliano Mancini

近年來,大型推理模型(LRM)透過增加測試時的計算量來生成顯式的中間推理軌跡,從而顯著提升了效能。然而,更長的推理是否總是有益?一項由Simone Caldarella等五位研究者合作的研究對這一問題提出了挑戰。論文《Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models》揭示了大型推理模型在達到正確答案後繼續推理可能帶來的風險,並首次系統性地定義了“有害過度思考”這一概念。

研究者們提出了一種基於推理充分性的字首級軌跡評估協議,透過定義模型首次生成正確答案所需的最小推理預算,成功區分了兩種不同的過度思考模式:冗長過度思考(額外推理冗餘但無害)和有害過度思考(繼續推理會破壞已正確的軌跡)。在多項多模態基準測試上,他們發現許多原本被認為是推理密集型的問題實際上只需要非常有限的推理步驟。更令人驚訝的是,如果在第一個正確的推理字首處立即停止,模型的準確率相比標準推理流程可提升高達21%。

這一發現表明,當前模型的侷限性不僅在於推理能力,還在於它們無法在合適的時機停止。研究還測試了常見的效率提升策略(如提前停止),雖然這些策略能將冗長過度思考減少50%,但完全無法緩解有害過度思考。進一步的錯誤分析揭示,正確性的偏離主要源於邏輯漂移(模型在後續推理中走入邏輯死衚衕)和視覺重新解釋(在多模態任務中模型對影像內容產生錯誤的新理解)。

最後,研究者將實驗擴充套件到純語言推理基準,結果同樣支援上述結論。這意味著有害過度思考並非多模態任務特有的現象,而是大型推理模型普遍存在的一個可靠性風險。模型在“知道答案後還在想”,導致最終輸出偏離正確結果。該研究為構建更可靠的推理系統提供了新思路:不僅要讓模型更聰明,還要教會它們何時停下。相關程式碼已在GitHub上開源。