AI News HubLIVE
站内改写1 分钟阅读

2025年大语言模型现状:进展、问题与预测

本文全面回顾了2025年大语言模型领域的关键进展,包括DeepSeek R1通过RLVR/GRPO实现的推理能力突破、推理时扩展和工具使用的兴起、基准确认过度优化(benchmaxxing)问题,以及对2026年的预测,如扩散模型和RLVR的更广泛应用。

来源Ahead of AI (Sebastian Raschka)作者: Sebastian Raschka, PhD

2025年是大语言模型(LLM)发展极具标志性的一年,从年初的DeepSeek R1开始,推理能力成为全年核心主题。DeepSeek R1通过强化学习与可验证奖励(RLVR)结合GRPO算法,展示了低成本训练高性能推理模型的可能性,其训练成本仅为约500万美元(V3)和29.4万美元(R1),大幅低于业界预期。这一突破促使几乎所有主流模型厂商都推出了自己的推理变体。

除了RLVR,推理时扩展和工具使用在2025年也取得了显著进展。例如,DeepSeekMath-V2通过推理时扩展在数学竞赛中达到金牌水平。工具使用有效减少了幻觉问题,OpenAI的gpt-oss等模型专门针对工具调用进行了优化。然而,开源生态系统在工具使用方面尚未完全跟进,部分原因是安全顾虑。

2025年另一个关键趋势是“benchmaxxing”(基准确认过度优化),即模型过度追求基准分数而忽视实际能力。Llama 4便是典型案例——其基准分数极高,但实际表现令人失望。这提醒我们,基准测试虽仍有必要,但已不足以可靠衡量模型性能。

展望2026年,作者预测将出现面向消费者的扩散模型(如Gemini Diffusion),用于低成本、低延迟推理;RLVR将从数学和代码扩展到化学、生物学等领域;经典RAG可能逐渐被更好的长上下文处理取代;以及LLM进步将更多来自推理侧而非训练侧。此外,开放权重社区将逐步采用本地工具使用和智能体能力。

总体而言,2025年的经验是:LLM的进步不再依赖单一突破,而是架构调整、数据质量、推理训练、推理扩展和工具调用等多方面协同改进的结果。评估依然困难,良好的判断力至关重要。