Meta超级智能:领导力计算、人才与数据
Meta以约300亿美元估值收购Scale AI 49%股份,显示其资金充裕。尽管资源雄厚,Meta在模型性能上落后于基础实验室。Zuckerberg亲自领导新“超级智能”团队,以巨额薪酬挖角顶级人才,并彻底改革数据中心策略,采用帐篷式快速建设。同时,Llama 4因注意力机制、数据质量等问题遭遇失败,但Meta正通过收购和挖角弥补人才差距。
Meta近期以约300亿美元估值收购Scale AI 49%股份,这一消息震惊业界,显示这家年现金流超过1000亿美元的广告巨头在资金上毫无顾虑。然而,尽管资源雄厚,Meta在模型性能上一直落后于OpenAI等前沿实验室。真正的警钟是Meta在开源模型领域的领先地位被中国的DeepSeek夺走。这促使首席执行官马克·扎克伯格进入“创始人模式”,亲自领导Meta的AI转型,并识别出两大核心短板:人才和算力。
扎克伯格不仅投入巨额资金,还从根本上重新思考Meta的生成式AI战略。他正在从零开始组建一个名为“超级智能”的新团队,并亲自挖角顶尖AI人才,提供高达四年2亿美元甚至10亿美元的薪酬方案,远超同行。这种做法不仅直接吸引了顶尖人才,还大幅提高了竞争对手的用人成本,从而削弱其竞争力。
在数据中心方面,扎克伯格抛弃了原有的计划,转而采用“帐篷式”快速建设方案,优先考虑速度而非冗余。Meta正在俄亥俄州建设名为“Prometheus”的1GW级AI训练集群,采用“多管齐下”的基础设施策略:包括自建园区、向第三方租赁、AI优化设计、多数据中心园区训练以及现场天然气发电。该集群使用Arista 7808交换机和Broadcom Jericho/Ramon ASIC构建超高速后端网络。当当地电网无法满足需求时,Meta甚至自行建设两座200MW的天然气发电厂,其设备包括Solar Turbines Titan 250燃气轮机、PGM 130燃气轮机、西门子能源SGT400燃气轮机和CAT 3520往复式发动机。
此外,路易斯安那州的“Hyperion”集群目标达到2GW,将成为全球最大的单体园区,一期IT功率超过1.5GW,计划在2027年底完工。Hyperion旨在缩小与OpenAI在计算能力上的差距。Meta还在建设其他多个数据中心,全部详情可在其数据中心行业模型中查阅。
然而,Meta的Llama 4模型遭遇了重大失败。技术上,分块注意力机制导致长距离推理困难,因为每个块的第一个token无法访问先前上下文,虽然有全局注意力层,但仍不足以支持链式推理。专家选择路由在训练和推理中存在缺陷,虽然保证了专家负载均衡,但某些热门token可能被多个专家处理,导致泛化能力下降,且推理时专家只能从少量token中选择,影响效果。Meta在训练中途从专家选择切换回token选择,但性能下降严重。数据质量方面,Meta中途转向内部爬虫,但清理和去重流程未经过大规模测试,且未使用YouTube数据(其他实验室如OpenAI和DeepSeek都使用),这可能影响了多模态模型的训练。此外,扩展实验管理不善,存在相互竞争的研究方向,缺乏统一领导,某些架构选择未经充分消融实验就直接采用。
尽管如此,Meta仍通过蒸馏技术将Llama 4的部分能力注入到较小的Maverick和Scout模型中,但这些模型仍受源模型限制,并非同尺寸最佳。
为了弥补人才和技术差距,扎克伯格亲自招募顶尖研究员,并收购了Scale AI,引入了前GitHub CEO Nat Friedman、前Scale AI CEO Alex Wang以及SSI的Daniel Gross。Scale AI的SEAL实验室专注于评估,开发了HLE基准,对Meta至关重要。这些举措旨在建立人才聚集的飞轮效应,结合无与伦比的算力和超过20亿日活用户,推动Meta在超级智能领域的竞争。
此外,美国政府的“一项美丽法案”(One Big Beautiful Bill)中针对超大规模数据中心的税收优惠进一步激励了Meta的巨额投资。扎克伯格选择了最佳时机启动这一支出狂潮,联邦政府资助的超级智能项目被视为现代的曼哈顿计划。
总之,Meta正在经历从计算到人才的全面重塑,尽管Llama 4失败,但其训练算力快速增长,预计将与OpenAI匹敌。扎克伯格的领导和战略调整可能使Meta在未来几年内重新夺回AI领域的领先地位。