AI News HubLIVE
站內改寫3 分鐘閱讀

時隔一年,Meta重返大語言模型領域

Meta於2025年4月8日發佈新模型Muse Spark,結束了自Llama 4發佈以來長達一年的沉寂。儘管模型性能基準得分不錯,但業界對其實際實用性存疑,且Meta在後期訓練(模型個性化)方面仍落後於Anthropic和OpenAI。文章回顧了Llama 4的失敗及Meta通過高薪挖角、收購初創公司等方式重建AI團隊的歷程,指出Meta的指標驅動文化可能有助於追趕,但難以引領前沿創新。

來源Understanding AI作者: Kai Williams

在AI Summer播客的最新一集中,Tim和Kai與普林斯頓大學計算機科學家Sayash Kapoor討論了Claude Mythos Preview。Meta在4月8日發佈的新模型Muse Spark,被提前一天公佈的Claude Mythos Preview搶走了風頭。然而,Meta的新模型系列及其上週發佈的158頁安全報告,對於理解該公司未來在AI行業的角色仍然具有重要意義。

馬克·扎克伯格花費數十億美元組建了開發Muse Spark的團隊。該模型的發佈首次暗示了Meta能否躋身頂級AI實驗室的行列。Meta擁有資源雄厚的科技公司的一切優勢:大量AI芯片、專有數據和優厚的薪酬。這些資源使Meta團隊能夠生產出基準分數強勁的模型。但我懷疑這些分數仍然誇大了模型的實際效用。

當今最優秀模型的生產商——Anthropic和OpenAI——擅長後期訓練這門微妙藝術。這一步賦予模型“個性”,即創造力、機智和道德基礎的結合,能將一個好模型變成偉大的模型。我認為Meta的新AI團隊尚未達到這一水平。而且,無論扎克伯格投入多少億美元,他似乎都難以組建一個具備頂級後期訓練能力的團隊。Meta以指標為導向的文化可能有助於公司趕上Anthropic和OpenAI等領導者,但我預測,一旦Meta的模型接近前沿,這種文化將很難指導進一步的創新。

Llama 4的挫折

Muse Spark的發佈醖釀已久;Meta上一次模型發佈——Llama 4——是在一年多以前。2025年4月5日,Meta將Llama 4模型系列譽為“我們迄今為止最先進的模型,也是多模態同類中最好的”。Meta聲稱,該系列中的中型模型Llama 4 Maverick在“一系列廣泛接受的基準測試中”優於OpenAI的GPT-4o和谷歌的Gemini 2.0 Flash。但互聯網並未被打動。

“它如此糟糕,真是令人震驚,”一位Reddit用户在一篇題為“我對Llama-4極度失望”的帖子下評論。其他用户也紛紛表示贊同。“這是地球上最富有的公司之一發布的可憐產品,”另一位寫道。不止Reddit:作家Zvi Mowshowitz觀察到,Llama 4在幾乎所有獨立基準測試中都表現“中庸”或“低於中庸”。儘管之前的Llama模型,尤其是Llama 3系列,仍然受到研究人員的歡迎,但Llama 4已被扔進歷史的垃圾桶。

Llama 4的發佈損害了Meta在AI社區的聲譽。Meta當時的首席AI科學家Yann LeCun後來告訴《金融時報》,Llama 4模型僅在基準測試中表現良好,因為“結果被稍微篡改了”。Meta針對特定模型進行了微調以在知名基準測試中取得好成績,並報告了這些結果,然後向公眾發佈了不同的模型。

“我將Meta歸入那些其能力聲明不可信、不能依靠其遵循行業規範、顯然不在前沿的AI實驗室之列,”Mowshowitz當時寫道。

在接下來的一年裏,Meta沒有發佈任何大語言模型——甚至沒有發佈曾在Llama 4公告中預覽的Llama 4 Behemoth。但馬克·扎克伯格並未放棄。去年6月,他開始重組Meta的AI工作。Meta向數據標註初創公司Scale AI投資了143億美元,以收購其當時28歲的CEO Alexandr Wang,這一過程被稱為人才收購。Wang成為Meta的首席AI官,並領導Meta內部的一個新組織——Meta超級智能實驗室(MSL)。

Meta在Wang身上的投入不止於此。7月,《紐約時報》報道稱,一位24歲的研究人員獲得了2.5億美元的薪酬方案,其中包括第一年的1億美元。據《紐約時報》報道,Meta向工程師提供的薪酬方案“在數千萬美元的中段範圍內”。Meta從OpenAI挖走了數名研究人員,這促使OpenAI的研究主管寫了一份內部備忘錄,稱感覺“好像有人闖入了我們的家並偷走了東西”。

到8月,Meta已招募了50多名新研究人員,並開始開發代號為Avocado的新模型。Meta在10月從較舊的AI部門裁掉了600名研究人員,但新團隊繼續工作。到12月底,它完成了Avocado的預訓練過程。3月中旬,《紐約時報》報道稱,Avocado原定於3月發佈,但由於在“推理、編碼和寫作的內部測試中”表現不如谷歌、OpenAI和Anthropic的領先AI模型而被推遲。

最終,在4月8日,Meta宣佈發佈新的大語言模型:Muse Spark。初步評論大多是正面的——至少不像Llama 4那樣遭受持續不斷的負面評價。