2025-12-30 20:22 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

2025年大语言模型现状：进展、问题与预测

本文全面回顾了2025年大语言模型领域的关键进展，包括DeepSeek R1通过RLVR/GRPO实现的推理能力突破、推理时扩展和工具使用的兴起、基准确认过度优化（benchmaxxing）问题，以及对2026年的预测，如扩散模型和RLVR的更广泛应用。

来源Ahead of AI (Sebastian Raschka)作者: Sebastian Raschka, PhD

2025年是大语言模型（LLM）发展极具标志性的一年，从年初的DeepSeek R1开始，推理能力成为全年核心主题。DeepSeek R1通过强化学习与可验证奖励（RLVR）结合GRPO算法，展示了低成本训练高性能推理模型的可能性，其训练成本仅为约500万美元（V3）和29.4万美元（R1），大幅低于业界预期。这一突破促使几乎所有主流模型厂商都推出了自己的推理变体。

除了RLVR，推理时扩展和工具使用在2025年也取得了显著进展。例如，DeepSeekMath-V2通过推理时扩展在数学竞赛中达到金牌水平。工具使用有效减少了幻觉问题，OpenAI的gpt-oss等模型专门针对工具调用进行了优化。然而，开源生态系统在工具使用方面尚未完全跟进，部分原因是安全顾虑。

2025年另一个关键趋势是“benchmaxxing”（基准确认过度优化），即模型过度追求基准分数而忽视实际能力。Llama 4便是典型案例——其基准分数极高，但实际表现令人失望。这提醒我们，基准测试虽仍有必要，但已不足以可靠衡量模型性能。

展望2026年，作者预测将出现面向消费者的扩散模型（如Gemini Diffusion），用于低成本、低延迟推理；RLVR将从数学和代码扩展到化学、生物学等领域；经典RAG可能逐渐被更好的长上下文处理取代；以及LLM进步将更多来自推理侧而非训练侧。此外，开放权重社区将逐步采用本地工具使用和智能体能力。

总体而言，2025年的经验是：LLM的进步不再依赖单一突破，而是架构调整、数据质量、推理训练、推理扩展和工具调用等多方面协同改进的结果。评估依然困难，良好的判断力至关重要。