2026-04-20 22:39 UTC+9サイト内リライト3 分で読了更新: 2026-06-27 09:25 UTC+9

Metaが1年ぶりにLLM競争に復帰

Metaは2025年4月8日に新モデルMuse Sparkを発表し、Llama 4以来1年余りの休止期間を終えた。ベンチマークスコアは高いが、実用性には懐疑的な見方があり、ポストトレーニング能力ではAnthropicやOpenAIに劣る。本記事は、Llama 4の失敗と、Metaが買収や引き抜きを通じて巨費を投じてAIチームを再構築した経緯を振り返り、指標主導の文化が追いつくのに役立っても、最先端の革新にはつながらない可能性を示唆している。

ソースUnderstanding AI著者: Kai Williams

記事インテリジェンス

エンジニア上級

要点

MetaがMuse Sparkを公開、Llama 4の不評以来1年ぶりにLLM市場に復帰。
Llama 4はベンチマーク操作と実性能の低さで批判され、Metaの評判を傷つけた。
MetaはScale AIのCEOの買収的採用やOpenAIからの研究者引き抜きなど、チーム再構築に数十億ドルを投じた。
Muse Sparkのベンチマークスコアは実際の能力を過大評価する可能性があり、ポストトレーニング品質の向上が課題。

重要な理由

このニュースが重要なのは、MetaがMuse Sparkを公開、Llama 4の不評以来1年ぶりにLLM市場に復帰ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

AI Summerポッドキャストの最新エピソードでは、TimとKaiがプリンストン大学のコンピュータ科学者Sayash KapoorとともにClaude Mythos Previewについて議論した。4月8日にリリースされたMetaの新モデルMuse Sparkは、1日前に発表されたClaude Mythos Previewの陰に隠れてしまった。しかし、Metaの新しいモデルファミリーと、先週同社が公開した158ページの安全性レポートは、AI業界における同社の将来の役割を示す点で依然として重要である。

マーク・ザッカーバーグは、Muse Sparkを構築したチームを結成するために数十億ドルを費やした。このモデルのリリースは、MetaがトップティアのAIラボに仲間入りできるかどうかについての初めてのヒントとなる。Metaは、潤沢なリソースを持つテクノロジー企業のあらゆる利点を持っている。多数のAIチップ、独自データ、そして高額な給与だ。これらのリソースにより、Metaチームは強力なベンチマークスコアを持つモデルを生み出すことができた。しかし、それらのスコアは依然としてモデルの実用的価値を過大評価しているのではないかと私は疑っている。

現在最高のモデルを生み出している企業、AnthropicとOpenAIは、ポストトレーニングという微妙な技術に秀でている。このステップはモデルに「個性」、つまり創造性、機知、倫理的基盤の組み合わせを与え、良いモデルを偉大なモデルに変える。Metaの新しいAIチームはまだその域に達していないと思う。そして、ザッカーバーグがどれだけの数十億ドルを費やしても、トップティアのポストトレーニング能力を持つチームを構築できるかどうかは定かではない。Metaの指標に執着する文化は、AnthropicやOpenAIのようなリーダーに追いつくのに役立つかもしれないが、Metaのモデルがフロンティアに近づいたとき、さらなる革新への指針としては不十分だと私は予測する。

Llama 4のつまずき

Muse Sparkのリリースは長い間待たれていた。Metaの前回のモデルリリースであるLlama 4から1年以上が経過していた。2025年4月5日、MetaはLlama 4モデルファミリーを「これまでで最も先進的なモデルであり、マルチモーダル性においてクラス最高」と称賛した。Metaは、シリーズの中型モデルであるLlama 4 Maverickが、OpenAIのGPT-4oやGoogleのGemini 2.0 Flashを「広く受け入れられたベンチマークの広範囲にわたって」上回ったと主張した。しかし、インターネットは感銘を受けなかった。

「本当にひどいので驚いた」と、あるRedditユーザーは「Llama-4に非常な失望」というタイトルの投稿にコメントした。他のコメント投稿者も同意した。「地球上で最も裕福な企業の一つからの哀れなリリース」と別のユーザーは書いた。Redditだけではなかった。Llama 4は、ほぼすべての独立したベンチマークで「中程度」または「中程度以下」のパフォーマンスを示したと、作家のZvi Mowshowitzが指摘した。以前のLlamaモデル、特にLlama 3シリーズは研究者の間で今でも人気があるが、Llama 4は歴史のゴミ箱に追いやられた。

Llama 4のリリースは、AIコミュニティにおけるMetaの評判を傷つけた。Metaの当時のチーフAI科学者Yann LeCunが後にフィナンシャル・タイムズに語ったところによると、Llama 4のモデルがベンチマークで好成績を収めたのは、「結果が少し偽造された」ためだ。Metaは特定のモデルを有名なベンチマークでうまく機能するように微調整し、その結果を報告した。そして、異なるモデルを一般に公開したのだ。

「私はMetaを、モデル能力に関する声明が信頼できず、業界標準に従うことが期待できず、明らかにフロンティアにいないAIラボのカテゴリーに位置付けている」とMowshowitzは当時書いた。

その後1年間、MetaはLLMを一切リリースしなかった。Llama 4の発表でプレビューされたLlama 4 Behemothさえもリリースされなかった。しかし、マーク・ザッカーバーグは諦めなかった。昨年6月、彼はMetaのAI活動の再編を開始した。MetaはデータラベリングスタートアップのScale AIに143億ドルを投資し、当時28歳のCEOであるAlexandr Wangを買収的採用（アクワイハイア）と呼ばれるプロセスで迎え入れた。WangはMetaのチーフAIオフィサーとなり、Meta Superintelligence Labs（MSL）と呼ばれる組織内の新たな取り組みを率いた。

MetaはWangだけでなく、さらに散財した。7月、ニューヨーク・タイムズは、24歳の研究者に2億5000万ドル（初年度1億ドルを含む）のオファーがあったと報じた。Metaはエンジニアに「数千万ドルの中盤」の報酬パッケージを提供したと同紙は報じている。MetaはOpenAIから数名の研究者を引き抜き、これを受けてOpenAIの研究責任者は「誰かが我が家に侵入して何かを盗んだかのようだ」と内部メモを書いた。

8月までに、Metaは50人以上の新しい研究者を採用し、コード名Avocadoの新モデルの作業を開始した。Metaは10月に古いAI部門から600人の研究者を解雇したが、新しいチームは作業を続けた。12月末までに、Avocadoの事前トレーニングプロセスを完了した。3月中旬、ニューヨーク・タイムズは、Avocadoが「推論、コーディング、ライティングの内部テスト」でGoogle、OpenAI、Anthropicの主要AIモデルよりもパフォーマンスが劣っていたため、3月に予定されていたリリースが遅れていると報じた。

ついに4月8日、Metaは新しいLLM、Muse Sparkをリリースすると発表した。初期のレビューはほとんど好意的で、少なくともLlama 4に対する容赦ない否定的なレビューとは正反対だった。