2026-04-20 21:39 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

時隔一年，Meta重返大語言模型領域

Meta於2025年4月8日發佈新模型Muse Spark，結束了自Llama 4發佈以來長達一年的沉寂。儘管模型性能基準得分不錯，但業界對其實際實用性存疑，且Meta在後期訓練（模型個性化）方面仍落後於Anthropic和OpenAI。文章回顧了Llama 4的失敗及Meta通過高薪挖角、收購初創公司等方式重建AI團隊的歷程，指出Meta的指標驅動文化可能有助於追趕，但難以引領前沿創新。

來源Understanding AI作者: Kai Williams

在AI Summer播客的最新一集中，Tim和Kai與普林斯頓大學計算機科學家Sayash Kapoor討論了Claude Mythos Preview。Meta在4月8日發佈的新模型Muse Spark，被提前一天公佈的Claude Mythos Preview搶走了風頭。然而，Meta的新模型系列及其上週發佈的158頁安全報告，對於理解該公司未來在AI行業的角色仍然具有重要意義。

馬克·扎克伯格花費數十億美元組建了開發Muse Spark的團隊。該模型的發佈首次暗示了Meta能否躋身頂級AI實驗室的行列。Meta擁有資源雄厚的科技公司的一切優勢：大量AI芯片、專有數據和優厚的薪酬。這些資源使Meta團隊能夠生產出基準分數強勁的模型。但我懷疑這些分數仍然誇大了模型的實際效用。

當今最優秀模型的生產商——Anthropic和OpenAI——擅長後期訓練這門微妙藝術。這一步賦予模型“個性”，即創造力、機智和道德基礎的結合，能將一個好模型變成偉大的模型。我認為Meta的新AI團隊尚未達到這一水平。而且，無論扎克伯格投入多少億美元，他似乎都難以組建一個具備頂級後期訓練能力的團隊。Meta以指標為導向的文化可能有助於公司趕上Anthropic和OpenAI等領導者，但我預測，一旦Meta的模型接近前沿，這種文化將很難指導進一步的創新。

Llama 4的挫折

Muse Spark的發佈醖釀已久；Meta上一次模型發佈——Llama 4——是在一年多以前。2025年4月5日，Meta將Llama 4模型系列譽為“我們迄今為止最先進的模型，也是多模態同類中最好的”。Meta聲稱，該系列中的中型模型Llama 4 Maverick在“一系列廣泛接受的基準測試中”優於OpenAI的GPT-4o和谷歌的Gemini 2.0 Flash。但互聯網並未被打動。

“它如此糟糕，真是令人震驚，”一位Reddit用户在一篇題為“我對Llama-4極度失望”的帖子下評論。其他用户也紛紛表示贊同。“這是地球上最富有的公司之一發布的可憐產品，”另一位寫道。不止Reddit：作家Zvi Mowshowitz觀察到，Llama 4在幾乎所有獨立基準測試中都表現“中庸”或“低於中庸”。儘管之前的Llama模型，尤其是Llama 3系列，仍然受到研究人員的歡迎，但Llama 4已被扔進歷史的垃圾桶。

Llama 4的發佈損害了Meta在AI社區的聲譽。Meta當時的首席AI科學家Yann LeCun後來告訴《金融時報》，Llama 4模型僅在基準測試中表現良好，因為“結果被稍微篡改了”。Meta針對特定模型進行了微調以在知名基準測試中取得好成績，並報告了這些結果，然後向公眾發佈了不同的模型。

“我將Meta歸入那些其能力聲明不可信、不能依靠其遵循行業規範、顯然不在前沿的AI實驗室之列，”Mowshowitz當時寫道。

在接下來的一年裏，Meta沒有發佈任何大語言模型——甚至沒有發佈曾在Llama 4公告中預覽的Llama 4 Behemoth。但馬克·扎克伯格並未放棄。去年6月，他開始重組Meta的AI工作。Meta向數據標註初創公司Scale AI投資了143億美元，以收購其當時28歲的CEO Alexandr Wang，這一過程被稱為人才收購。Wang成為Meta的首席AI官，並領導Meta內部的一個新組織——Meta超級智能實驗室（MSL）。

Meta在Wang身上的投入不止於此。7月，《紐約時報》報道稱，一位24歲的研究人員獲得了2.5億美元的薪酬方案，其中包括第一年的1億美元。據《紐約時報》報道，Meta向工程師提供的薪酬方案“在數千萬美元的中段範圍內”。Meta從OpenAI挖走了數名研究人員，這促使OpenAI的研究主管寫了一份內部備忘錄，稱感覺“好像有人闖入了我們的家並偷走了東西”。

到8月，Meta已招募了50多名新研究人員，並開始開發代號為Avocado的新模型。Meta在10月從較舊的AI部門裁掉了600名研究人員，但新團隊繼續工作。到12月底，它完成了Avocado的預訓練過程。3月中旬，《紐約時報》報道稱，Avocado原定於3月發佈，但由於在“推理、編碼和寫作的內部測試中”表現不如谷歌、OpenAI和Anthropic的領先AI模型而被推遲。

最終，在4月8日，Meta宣佈發佈新的大語言模型：Muse Spark。初步評論大多是正面的——至少不像Llama 4那樣遭受持續不斷的負面評價。