予測:2026年12月3日にフロンティアオープンソースLLMがリリースされる
単一のベンチマークによると、オープンソースとクローズドソースのLLMのギャップは縮小しており、2026年12月までに解消される可能性があります。しかし、18のベンチマークの分析では、平均ギャップは約5ヶ月で安定しており、コーディングベンチマークが改善の大部分を占めています。この記事は、LLMの品質測定の難しさを浮き彫りにしています。
最近、Twitter上でオープンソースとクローズドソースの大規模言語モデル(LLM)の性能差を示すグラフが話題になりました。このグラフはArtificial Analysis Intelligence Indexに基づいており、2024年夏以降、両者のギャップが縮小し続けていることを示しています。現在のトレンドを外挿すると、2026年12月3日頃にはギャップがゼロになると予測されます。この予測に基づき、「年金を現金化して孤島に逃げるべきだ」といった皮肉も飛び交いました。
しかし、これは単一のベンチマークに過ぎず、全体像を捉えているとは言えません。Artificial Analysisは18の異なるベンチマークを提供しており、これら全てに対して同じ分析を実施しました。各ベンチマークごとにオープンモデルがクローズドモデルに追いつくまでの月数を計算し、毎月のデータを箱ひげ図でプロットしました。驚くべきことに、全ベンチマークの平均ギャップはほぼ一定で、約5ヶ月を維持しています。つまり、多角的に見ればオープンソースの追い上げは実質的に進んでいないのです。
特に注目すべきは、改善の大部分がコーディングベンチマークに集中している点です。コーディング指数は15ヶ月の遅れからわずか1-2ヶ月まで短縮されました。しかし、AIMEやMMLU-Pro、GPQAなどの他の多くのベンチマークでは、ギャップがむしろ拡大傾向にあります。このことは、LLMの能力がコーディングに特化して向上している一方で、他の領域での進歩が遅れていることを示唆しています。
この分析は、LLMの品質評価がいかに難しいかを浮き彫りにしています。測定指標の選び方によって、オープンソースの勝利が目前に迫っていると予測することも、逆にギャップが拡大していると解釈することも可能です。単一のベンチマークに依存する危険性を認識し、複数の指標を総合的に評価することが不可欠です。結論として、LLMの能力を測定するには依然として多くの課題が残されており、今後のベンチマーク設計の重要性が改めて示されました。