xAI的Colossus 2——全球首个千兆瓦级数据中心、独特强化学习方法与大规模融资 2025-09-17 01:38 UTC+8 xAI正在建造Colossus 2,一个千兆瓦级AI训练集群,通过跨州电力供应和与Solaris Energy Infrastructure的合作,实现快速建设。该项目有望在2025年第三季度超越竞争对手,并可能通过中东资金获得数十亿美元融资。
xAI的Colossus 1在122天内建成,拥有约200,000个H100/H200 GPU;Colossus 2规模更大、速度更快。 Colossus 2的电力来自密西西比州的前杜克能源电厂,通过燃气轮机提供,避开了本地阻力。 又一巨大飞跃:Rubin CPX 专用加速器及机架 2025-09-11 03:57 UTC+8 Nvidia 发布了 Rubin CPX,这是一款专门为预填充阶段优化的解决方案,单芯片 Rubin CPX 重点强调计算 FLOPS 而非内存带宽。这对推理来说是游戏规则的改变者,其重要性仅次于 2024 年 3 月发布的 GB200 NVL72 Oberon 机架级形态。只有为推理的预填充和解码这两个截然不同的阶段定制硬件,才能充分发挥分解式服务的潜力。Nvidia 的机架系统设计差距已变得如鸿沟般巨大,竞争对手需要重新调整路线图。
Rubin CPX 是一款预填充专用 GPU,具有 20 PFLOPS FP4 密集计算和 2 TB/s 内存带宽,使用 128GB GDDR7,成本远低于 HBM。 新的 VR200 NVL144 CPX 和双机架方案为分解式推理提供了灵活的预填充到解码比例。 华为Ascend生产提速:Die Bank、台积电持续生产,HBM成为瓶颈 2025-09-08 17:54 UTC+8 华为正在加速Ascend AI芯片的生产,利用台积电的Die Bank和SMIC的产能提升。然而,HBM(高带宽内存)的短缺将成为未来生产的最大瓶颈。中国国内HBM供应商CXMT正在快速追赶,但短期内仍无法满足需求。文章还分析了出口管制对华为的影响以及NVIDIA H20芯片进入中国市场的潜在影响。
华为2024年出货507K颗Ascend芯片,2025年预计805K颗,其中大部分为910C型号。 SMIC的产能不再是瓶颈,但HBM供应不足将限制华为明年生产100万颗以上的芯片。 亚马逊的AI复兴:AWS与Anthropic的多千兆瓦Trainium扩张 2025-09-04 04:55 UTC+8 两年前SemiAnalysis曾警告AWS面临“云危机”,如今危机显现:Azure在季度新增云收入上领先,谷歌云与AWS差距缩小。但SemiAnalysis逆势看多,认为AWS将迎来AI复兴,核心驱动力是合作伙伴Anthropic。Anthropic 2025年收入从10亿美元激增至50亿美元,AWS为其建设了超过1.3吉瓦的数据中心,用于部署近百万颗Trainium2芯片。尽管Trainium2在性能上落后于Nvidia,但其每TCO内存带宽优势契合Anthropic的强化学习路线。AWS与Anthropic的合作正走向深度硬件-软件协同设计,有望在2025年底推动AWS云增速超过20%。
AWS面临AI云市场份额下滑,但SemiAnalysis预测其将因Anthropic合作而复兴。 Anthropic成为AWS的“锚定客户”,其2025年收入增长5倍至50亿美元。 H100与GB200 NVL72训练基准测试:功耗、TCO与可靠性分析,及软件随时间的改进 2025-08-20 12:56 UTC+8 本文深入分析了H100与GB200 NVL72在训练前沿模型时的基准表现,涵盖模型浮点利用率(MFU)、总拥有成本(TCO)、每百万token成本、能耗及可靠性。研究发现,H100在12个月内通过软件优化实现了高达57%的吞吐量提升;而GB200 NVL72虽然在性能上具有优势,但面临可靠性挑战和大规模训练尚未完成的现状。文章还提供了具体模型(如GPT-3 175B、Llama 3 405B)的详细基准数据,并给出对Nvidia的三点建议:增加基准测试透明度、扩展至原生PyTorch、改进GB200诊断工具。
H100通过软件优化在一年内将BF16 MFU从34%提升至54%,FP8 MFU从29.5%提升至39.5%。 GB200 NVL72的每GPU总拥有成本约为H100的1.6倍,因此需要至少1.6倍的性能优势才能在性能/TCO上胜出。 GPT-5为广告变现和超级应用铺平道路 2025-08-13 08:27 UTC+8 GPT-5的发布让高级用户失望,但实际重点是为超过7亿的免费用户铺平变现之路。文章分析OpenAI如何通过路由器(Router)技术区分查询意图,未来可能通过代理购买和交易抽成实现免费用户的变现,从而打造一个消费者超级应用。
GPT-5的重点不是高级用户,而是通过路由器技术为免费用户变现做准备。 路由器能够区分信息查询和商业查询,为高价值查询分配更多计算资源。 机器人自主级别:从脚本运动到通用任务的进阶之路 2025-07-31 01:02 UTC+8 本文提出了业界首个“机器人自主级别”分类法,将机器人自主能力划分为0到4共五个级别,每个级别基于前一级别逐步解锁新能力。文章分析了各级别当前部署情况、经济性、挑战及进展,并指出通用型机器人正从早期生产阶段走向劳动力替代。当前通用机器人已达到2级,3级处于早期试点,而4级仍有待突破。
机器人自主级别共5级:0级脚本运动、1级智能拾放、2级自主移动、3级低技能操作、4级力控任务。 当前通用机器人大多处于2级(早期生产)和3级(试点),4级仍处于研究阶段。 Meta超级智能:领导力计算、人才与数据 2025-07-12 04:12 UTC+8 Meta以约300亿美元估值收购Scale AI 49%股份,显示其资金充裕。尽管资源雄厚,Meta在模型性能上落后于基础实验室。Zuckerberg亲自领导新“超级智能”团队,以巨额薪酬挖角顶级人才,并彻底改革数据中心策略,采用帐篷式快速建设。同时,Llama 4因注意力机制、数据质量等问题遭遇失败,但Meta正通过收购和挖角弥补人才差距。
Meta收购Scale AI 49%股份,估值约300亿美元。 Zuckerberg组建超级智能团队,以2-3亿美元四年薪酬挖角顶级AI人才。