2025-12-30 20:22 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

2025年大語言模型現狀：進展、問題與預測

本文全面回顧了2025年大語言模型領域的關鍵進展，包括DeepSeek R1通過RLVR/GRPO實現的推理能力突破、推理時擴展和工具使用的興起、基準確認過度優化（benchmaxxing）問題，以及對2026年的預測，如擴散模型和RLVR的更廣泛應用。

來源Ahead of AI (Sebastian Raschka)作者: Sebastian Raschka, PhD

2025年是大語言模型（LLM）發展極具標誌性的一年，從年初的DeepSeek R1開始，推理能力成為全年核心主題。DeepSeek R1通過強化學習與可驗證獎勵（RLVR）結合GRPO算法，展示了低成本訓練高性能推理模型的可能性，其訓練成本僅為約500萬美元（V3）和29.4萬美元（R1），大幅低於業界預期。這一突破促使幾乎所有主流模型廠商都推出了自己的推理變體。

除了RLVR，推理時擴展和工具使用在2025年也取得了顯著進展。例如，DeepSeekMath-V2通過推理時擴展在數學競賽中達到金牌水平。工具使用有效減少了幻覺問題，OpenAI的gpt-oss等模型專門針對工具調用進行了優化。然而，開源生態系統在工具使用方面尚未完全跟進，部分原因是安全顧慮。

2025年另一個關鍵趨勢是“benchmaxxing”（基準確認過度優化），即模型過度追求基準分數而忽視實際能力。Llama 4便是典型案例——其基準分數極高，但實際表現令人失望。這提醒我們，基準測試雖仍有必要，但已不足以可靠衡量模型性能。

展望2026年，作者預測將出現面向消費者的擴散模型（如Gemini Diffusion），用於低成本、低延遲推理；RLVR將從數學和代碼擴展到化學、生物學等領域；經典RAG可能逐漸被更好的長上下文處理取代；以及LLM進步將更多來自推理側而非訓練側。此外，開放權重社區將逐步採用本地工具使用和智能體能力。

總體而言，2025年的經驗是：LLM的進步不再依賴單一突破，而是架構調整、數據質量、推理訓練、推理擴展和工具調用等多方面協同改進的結果。評估依然困難，良好的判斷力至關重要。