AI News HubLIVE
站內改寫1 分鐘閱讀

2025年大語言模型現狀:進展、問題與預測

本文全面回顧了2025年大語言模型領域的關鍵進展,包括DeepSeek R1通過RLVR/GRPO實現的推理能力突破、推理時擴展和工具使用的興起、基準確認過度優化(benchmaxxing)問題,以及對2026年的預測,如擴散模型和RLVR的更廣泛應用。

來源Ahead of AI (Sebastian Raschka)作者: Sebastian Raschka, PhD

2025年是大語言模型(LLM)發展極具標誌性的一年,從年初的DeepSeek R1開始,推理能力成為全年核心主題。DeepSeek R1通過強化學習與可驗證獎勵(RLVR)結合GRPO算法,展示了低成本訓練高性能推理模型的可能性,其訓練成本僅為約500萬美元(V3)和29.4萬美元(R1),大幅低於業界預期。這一突破促使幾乎所有主流模型廠商都推出了自己的推理變體。

除了RLVR,推理時擴展和工具使用在2025年也取得了顯著進展。例如,DeepSeekMath-V2通過推理時擴展在數學競賽中達到金牌水平。工具使用有效減少了幻覺問題,OpenAI的gpt-oss等模型專門針對工具調用進行了優化。然而,開源生態系統在工具使用方面尚未完全跟進,部分原因是安全顧慮。

2025年另一個關鍵趨勢是“benchmaxxing”(基準確認過度優化),即模型過度追求基準分數而忽視實際能力。Llama 4便是典型案例——其基準分數極高,但實際表現令人失望。這提醒我們,基準測試雖仍有必要,但已不足以可靠衡量模型性能。

展望2026年,作者預測將出現面向消費者的擴散模型(如Gemini Diffusion),用於低成本、低延遲推理;RLVR將從數學和代碼擴展到化學、生物學等領域;經典RAG可能逐漸被更好的長上下文處理取代;以及LLM進步將更多來自推理側而非訓練側。此外,開放權重社區將逐步採用本地工具使用和智能體能力。

總體而言,2025年的經驗是:LLM的進步不再依賴單一突破,而是架構調整、數據質量、推理訓練、推理擴展和工具調用等多方面協同改進的結果。評估依然困難,良好的判斷力至關重要。