2025-12-30 21:22 UTC+9サイト内リライト2 分で読了更新: 2026-06-27 09:25 UTC+9

2025年のLLMの現状：進歩、問題、予測

2025年の大規模言語モデル（LLM）の重要な進展を包括的にレビュー。DeepSeek R1によるRLVR/GRPOを用いた推論の進化、推論時スケーリングとツール使用の台頭、ベンチマークの過剰最適化（benchmaxxing）問題、そして2026年への予測（拡散モデルやRLVRの拡大など）を扱います。

ソースAhead of AI (Sebastian Raschka)著者: Sebastian Raschka, PhD

記事インテリジェンス

エンジニア上級

要点

DeepSeek R1のオープンウェイト推論モデルがRLVR/GRPOで2025年を席巻し、訓練後スケーリングに焦点が移った。
推論時スケーリングとツール使用が、従来の事前学習スケーリングを超えるLLM進歩の主要因となった。
「benchmaxxing」によりベンチマークスコアの信頼性が低下し、より良い評価の必要性が浮き彫りになった。
2026年の予測：消費者向け拡散モデル、RLVRの領域拡大、古典的RAGの衰退と長コンテキスト処理への移行。

重要な理由

このニュースが重要なのは、DeepSeek R1のオープンウェイト推論モデルがRLVR/GRPOで2025年を席巻し、訓練後スケーリングに焦点が移ったためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

2025年はLLMにとって極めて重要な年であり、年初のDeepSeek R1から始まり、推論能力が年間を通じて中心テーマとなった。DeepSeek R1は、RLVR（検証可能な報酬による強化学習）とGRPOアルゴリズムを用いて、低コストで高性能な推論モデルを訓練できることを示した。V3の訓練コストは約500万ドル、R1はさらに29.4万ドルと、業界の想定を大幅に下回った。このブレークスルーにより、ほぼすべての主要モデルベンダーが独自の推論バリアントをリリースした。

RLVRに加え、推論時スケーリングとツール使用も2025年に大きな進展を遂げた。例えば、DeepSeekMath-V2は推論時スケーリングにより数学競技で金メダル級の性能を達成した。ツール使用は幻覚を効果的に減らし、OpenAIのgpt-ossなどのモデルはツール呼び出しに特化して最適化された。しかし、オープンソースエコシステムはまだ完全には追いついておらず、その理由の一つはセキュリティ上の懸念である。

2025年のもう一つの重要な傾向は「benchmaxxing」（ベンチマークの過剰最適化）である。Llama 4はその典型例で、ベンチマークスコアは非常に高かったが、実際の性能は期待外れだった。これは、ベンチマークが依然として必要ではあるものの、モデル性能を確実に測定するには不十分であることを示している。

2026年に向けて、著者は消費者向け拡散モデル（Gemini Diffusionなど）の登場、RLVRの数学・コード以外の分野（化学、生物学など）への拡大、古典的RAGの衰退と長コンテキスト処理への移行、そしてLLMの進歩が訓練側ではなく推論側からもたらされる割合が増えると予測している。また、オープンウェイトコミュニティはローカルでのツール使用とエージェント能力を徐々に採用していくだろう。

総括すると、2025年の教訓は、LLMの進歩が単一のブレークスルーに依存するのではなく、アーキテクチャの調整、データ品質の向上、推論訓練、推論時スケーリング、ツール呼び出しなど、複数の独立したレバーによる改善の結果であるということだ。評価は依然として困難であり、適切な判断が不可欠である。