2026-04-20 21:39 UTC+8站内改写3 分钟阅读更新: 2026-06-27 08:25 UTC+8

时隔一年，Meta重返大语言模型领域

Meta于2025年4月8日发布新模型Muse Spark，结束了自Llama 4发布以来长达一年的沉寂。尽管模型性能基准得分不错，但业界对其实际实用性存疑，且Meta在后期训练（模型个性化）方面仍落后于Anthropic和OpenAI。文章回顾了Llama 4的失败及Meta通过高薪挖角、收购初创公司等方式重建AI团队的历程，指出Meta的指标驱动文化可能有助于追赶，但难以引领前沿创新。

来源Understanding AI作者: Kai Williams

在AI Summer播客的最新一集中，Tim和Kai与普林斯顿大学计算机科学家Sayash Kapoor讨论了Claude Mythos Preview。Meta在4月8日发布的新模型Muse Spark，被提前一天公布的Claude Mythos Preview抢走了风头。然而，Meta的新模型系列及其上周发布的158页安全报告，对于理解该公司未来在AI行业的角色仍然具有重要意义。

马克·扎克伯格花费数十亿美元组建了开发Muse Spark的团队。该模型的发布首次暗示了Meta能否跻身顶级AI实验室的行列。Meta拥有资源雄厚的科技公司的一切优势：大量AI芯片、专有数据和优厚的薪酬。这些资源使Meta团队能够生产出基准分数强劲的模型。但我怀疑这些分数仍然夸大了模型的实际效用。

当今最优秀模型的生产商——Anthropic和OpenAI——擅长后期训练这门微妙艺术。这一步赋予模型“个性”，即创造力、机智和道德基础的结合，能将一个好模型变成伟大的模型。我认为Meta的新AI团队尚未达到这一水平。而且，无论扎克伯格投入多少亿美元，他似乎都难以组建一个具备顶级后期训练能力的团队。Meta以指标为导向的文化可能有助于公司赶上Anthropic和OpenAI等领导者，但我预测，一旦Meta的模型接近前沿，这种文化将很难指导进一步的创新。

Llama 4的挫折

Muse Spark的发布酝酿已久；Meta上一次模型发布——Llama 4——是在一年多以前。2025年4月5日，Meta将Llama 4模型系列誉为“我们迄今为止最先进的模型，也是多模态同类中最好的”。Meta声称，该系列中的中型模型Llama 4 Maverick在“一系列广泛接受的基准测试中”优于OpenAI的GPT-4o和谷歌的Gemini 2.0 Flash。但互联网并未被打动。

“它如此糟糕，真是令人震惊，”一位Reddit用户在一篇题为“我对Llama-4极度失望”的帖子下评论。其他用户也纷纷表示赞同。“这是地球上最富有的公司之一发布的可怜产品，”另一位写道。不止Reddit：作家Zvi Mowshowitz观察到，Llama 4在几乎所有独立基准测试中都表现“中庸”或“低于中庸”。尽管之前的Llama模型，尤其是Llama 3系列，仍然受到研究人员的欢迎，但Llama 4已被扔进历史的垃圾桶。

Llama 4的发布损害了Meta在AI社区的声誉。Meta当时的首席AI科学家Yann LeCun后来告诉《金融时报》，Llama 4模型仅在基准测试中表现良好，因为“结果被稍微篡改了”。Meta针对特定模型进行了微调以在知名基准测试中取得好成绩，并报告了这些结果，然后向公众发布了不同的模型。

“我将Meta归入那些其能力声明不可信、不能依靠其遵循行业规范、显然不在前沿的AI实验室之列，”Mowshowitz当时写道。

在接下来的一年里，Meta没有发布任何大语言模型——甚至没有发布曾在Llama 4公告中预览的Llama 4 Behemoth。但马克·扎克伯格并未放弃。去年6月，他开始重组Meta的AI工作。Meta向数据标注初创公司Scale AI投资了143亿美元，以收购其当时28岁的CEO Alexandr Wang，这一过程被称为人才收购。Wang成为Meta的首席AI官，并领导Meta内部的一个新组织——Meta超级智能实验室（MSL）。

Meta在Wang身上的投入不止于此。7月，《纽约时报》报道称，一位24岁的研究人员获得了2.5亿美元的薪酬方案，其中包括第一年的1亿美元。据《纽约时报》报道，Meta向工程师提供的薪酬方案“在数千万美元的中段范围内”。Meta从OpenAI挖走了数名研究人员，这促使OpenAI的研究主管写了一份内部备忘录，称感觉“好像有人闯入了我们的家并偷走了东西”。

到8月，Meta已招募了50多名新研究人员，并开始开发代号为Avocado的新模型。Meta在10月从较旧的AI部门裁掉了600名研究人员，但新团队继续工作。到12月底，它完成了Avocado的预训练过程。3月中旬，《纽约时报》报道称，Avocado原定于3月发布，但由于在“推理、编码和写作的内部测试中”表现不如谷歌、OpenAI和Anthropic的领先AI模型而被推迟。

最终，在4月8日，Meta宣布发布新的大语言模型：Muse Spark。初步评论大多是正面的——至少不像Llama 4那样遭受持续不断的负面评价。