AI News HubLIVE
站内改写3 分钟阅读

时隔一年,Meta重返大语言模型领域

Meta于2025年4月8日发布新模型Muse Spark,结束了自Llama 4发布以来长达一年的沉寂。尽管模型性能基准得分不错,但业界对其实际实用性存疑,且Meta在后期训练(模型个性化)方面仍落后于Anthropic和OpenAI。文章回顾了Llama 4的失败及Meta通过高薪挖角、收购初创公司等方式重建AI团队的历程,指出Meta的指标驱动文化可能有助于追赶,但难以引领前沿创新。

来源Understanding AI作者: Kai Williams

在AI Summer播客的最新一集中,Tim和Kai与普林斯顿大学计算机科学家Sayash Kapoor讨论了Claude Mythos Preview。Meta在4月8日发布的新模型Muse Spark,被提前一天公布的Claude Mythos Preview抢走了风头。然而,Meta的新模型系列及其上周发布的158页安全报告,对于理解该公司未来在AI行业的角色仍然具有重要意义。

马克·扎克伯格花费数十亿美元组建了开发Muse Spark的团队。该模型的发布首次暗示了Meta能否跻身顶级AI实验室的行列。Meta拥有资源雄厚的科技公司的一切优势:大量AI芯片、专有数据和优厚的薪酬。这些资源使Meta团队能够生产出基准分数强劲的模型。但我怀疑这些分数仍然夸大了模型的实际效用。

当今最优秀模型的生产商——Anthropic和OpenAI——擅长后期训练这门微妙艺术。这一步赋予模型“个性”,即创造力、机智和道德基础的结合,能将一个好模型变成伟大的模型。我认为Meta的新AI团队尚未达到这一水平。而且,无论扎克伯格投入多少亿美元,他似乎都难以组建一个具备顶级后期训练能力的团队。Meta以指标为导向的文化可能有助于公司赶上Anthropic和OpenAI等领导者,但我预测,一旦Meta的模型接近前沿,这种文化将很难指导进一步的创新。

Llama 4的挫折

Muse Spark的发布酝酿已久;Meta上一次模型发布——Llama 4——是在一年多以前。2025年4月5日,Meta将Llama 4模型系列誉为“我们迄今为止最先进的模型,也是多模态同类中最好的”。Meta声称,该系列中的中型模型Llama 4 Maverick在“一系列广泛接受的基准测试中”优于OpenAI的GPT-4o和谷歌的Gemini 2.0 Flash。但互联网并未被打动。

“它如此糟糕,真是令人震惊,”一位Reddit用户在一篇题为“我对Llama-4极度失望”的帖子下评论。其他用户也纷纷表示赞同。“这是地球上最富有的公司之一发布的可怜产品,”另一位写道。不止Reddit:作家Zvi Mowshowitz观察到,Llama 4在几乎所有独立基准测试中都表现“中庸”或“低于中庸”。尽管之前的Llama模型,尤其是Llama 3系列,仍然受到研究人员的欢迎,但Llama 4已被扔进历史的垃圾桶。

Llama 4的发布损害了Meta在AI社区的声誉。Meta当时的首席AI科学家Yann LeCun后来告诉《金融时报》,Llama 4模型仅在基准测试中表现良好,因为“结果被稍微篡改了”。Meta针对特定模型进行了微调以在知名基准测试中取得好成绩,并报告了这些结果,然后向公众发布了不同的模型。

“我将Meta归入那些其能力声明不可信、不能依靠其遵循行业规范、显然不在前沿的AI实验室之列,”Mowshowitz当时写道。

在接下来的一年里,Meta没有发布任何大语言模型——甚至没有发布曾在Llama 4公告中预览的Llama 4 Behemoth。但马克·扎克伯格并未放弃。去年6月,他开始重组Meta的AI工作。Meta向数据标注初创公司Scale AI投资了143亿美元,以收购其当时28岁的CEO Alexandr Wang,这一过程被称为人才收购。Wang成为Meta的首席AI官,并领导Meta内部的一个新组织——Meta超级智能实验室(MSL)。

Meta在Wang身上的投入不止于此。7月,《纽约时报》报道称,一位24岁的研究人员获得了2.5亿美元的薪酬方案,其中包括第一年的1亿美元。据《纽约时报》报道,Meta向工程师提供的薪酬方案“在数千万美元的中段范围内”。Meta从OpenAI挖走了数名研究人员,这促使OpenAI的研究主管写了一份内部备忘录,称感觉“好像有人闯入了我们的家并偷走了东西”。

到8月,Meta已招募了50多名新研究人员,并开始开发代号为Avocado的新模型。Meta在10月从较旧的AI部门裁掉了600名研究人员,但新团队继续工作。到12月底,它完成了Avocado的预训练过程。3月中旬,《纽约时报》报道称,Avocado原定于3月发布,但由于在“推理、编码和写作的内部测试中”表现不如谷歌、OpenAI和Anthropic的领先AI模型而被推迟。

最终,在4月8日,Meta宣布发布新的大语言模型:Muse Spark。初步评论大多是正面的——至少不像Llama 4那样遭受持续不断的负面评价。