2025年のLLMの現状:進歩、問題、予測
2025年の大規模言語モデル(LLM)の重要な進展を包括的にレビュー。DeepSeek R1によるRLVR/GRPOを用いた推論の進化、推論時スケーリングとツール使用の台頭、ベンチマークの過剰最適化(benchmaxxing)問題、そして2026年への予測(拡散モデルやRLVRの拡大など)を扱います。
2025年はLLMにとって極めて重要な年であり、年初のDeepSeek R1から始まり、推論能力が年間を通じて中心テーマとなった。DeepSeek R1は、RLVR(検証可能な報酬による強化学習)とGRPOアルゴリズムを用いて、低コストで高性能な推論モデルを訓練できることを示した。V3の訓練コストは約500万ドル、R1はさらに29.4万ドルと、業界の想定を大幅に下回った。このブレークスルーにより、ほぼすべての主要モデルベンダーが独自の推論バリアントをリリースした。
RLVRに加え、推論時スケーリングとツール使用も2025年に大きな進展を遂げた。例えば、DeepSeekMath-V2は推論時スケーリングにより数学競技で金メダル級の性能を達成した。ツール使用は幻覚を効果的に減らし、OpenAIのgpt-ossなどのモデルはツール呼び出しに特化して最適化された。しかし、オープンソースエコシステムはまだ完全には追いついておらず、その理由の一つはセキュリティ上の懸念である。
2025年のもう一つの重要な傾向は「benchmaxxing」(ベンチマークの過剰最適化)である。Llama 4はその典型例で、ベンチマークスコアは非常に高かったが、実際の性能は期待外れだった。これは、ベンチマークが依然として必要ではあるものの、モデル性能を確実に測定するには不十分であることを示している。
2026年に向けて、著者は消費者向け拡散モデル(Gemini Diffusionなど)の登場、RLVRの数学・コード以外の分野(化学、生物学など)への拡大、古典的RAGの衰退と長コンテキスト処理への移行、そしてLLMの進歩が訓練側ではなく推論側からもたらされる割合が増えると予測している。また、オープンウェイトコミュニティはローカルでのツール使用とエージェント能力を徐々に採用していくだろう。
総括すると、2025年の教訓は、LLMの進歩が単一のブレークスルーに依存するのではなく、アーキテクチャの調整、データ品質の向上、推論訓練、推論時スケーリング、ツール呼び出しなど、複数の独立したレバーによる改善の結果であるということだ。評価は依然として困難であり、適切な判断が不可欠である。