亚马逊的AI复兴:AWS与Anthropic的多千兆瓦Trainium扩张
两年前SemiAnalysis曾警告AWS面临“云危机”,如今危机显现:Azure在季度新增云收入上领先,谷歌云与AWS差距缩小。但SemiAnalysis逆势看多,认为AWS将迎来AI复兴,核心驱动力是合作伙伴Anthropic。Anthropic 2025年收入从10亿美元激增至50亿美元,AWS为其建设了超过1.3吉瓦的数据中心,用于部署近百万颗Trainium2芯片。尽管Trainium2在性能上落后于Nvidia,但其每TCO内存带宽优势契合Anthropic的强化学习路线。AWS与Anthropic的合作正走向深度硬件-软件协同设计,有望在2025年底推动AWS云增速超过20%。
两年半前,SemiAnalysis曾预警AWS可能面临“云危机”。如今,证据已经累积。AWS是亚马逊帝国的皇冠明珠,贡献约60%的集团利润,主导着利润丰厚的云计算市场。但在新的GPU/XPU云时代,它难以将这一优势转化。微软Azure目前在季度新增云收入上领先市场,谷歌云与AWS的差距也大幅缩小,尤其是谷歌在TPU上的大动作。市场已经注意到这一点。今年至今,亚马逊是四大科技和AI巨头中表现最落后的,投资者因其在AI领域失去势头而给予最低估值。
然而,SemiAnalysis今天提出一个反共识的观点:虽然市场过度炒作“云危机”主题,但我们认为AWS将迎来AI复兴。一个月前我们已向核心研究用户阐述了这一论点,预测到2025年底其增速将加速至超过20%的同比增长。
亚马逊的救星名叫Anthropic。这家初创公司在2025年的生成式AI市场中表现明显优于同行,收入从年初的10亿美元年化增长至50亿美元,翻了五倍。为了保持这一势头,Anthropic正在大力押注扩展定律。虽然Dario的初创公司比OpenAI、xAI和Meta Superintelligence获得的头条新闻少,但它并不羞于投资。AWS拥有超过1千兆瓦的数据中心容量正在最后建设阶段,专门用于服务其锚定客户。AWS的建设速度是其历史上最快的。
这些设施的不同之处在于其内部:它们将容纳世界上最大的非Nvidia AI芯片集群,在最大的园区中拥有近一百万个Trainium2。Trainium2在许多方面落后于Nvidia的系统,但它对AWS/Anthropic的多千兆瓦交易至关重要。其每TCO内存带宽优势完美契合Anthropic激进的强化学习路线。Dario Amodei的初创公司深度参与了设计过程,其对Trainium路线图的影响力只会越来越大。简言之,Trainium2正趋向于Anthropic的定制芯片计划。这将使Anthropic成为除Google DeepMind外,在近期唯一受益于紧密硬件-软件协同设计的AI实验室。
本报告将深入探讨亚马逊AI复兴的各个方面:Anthropic合作、数据中心和Trainium。报告末尾,我们将提供对Anthropic、AWS Bedrock和内部模型的长期展望,并解释为什么一切并非一帆风顺。
首先,回顾一下AWS为何至今表现落后于竞争对手的AI云。为了理解亚马逊在生成式AI时代表现不佳的原因,我们可以分析GPU/XPU云市场成功的驱动因素。简单来说,我们将GPU/XPU容量的客户分为两类:批发裸机用户(如OpenAI、Anthropic、字节跳动等大型客户)和托管SLURM/Kubernetes用户(如初创公司、研究机构和企业试点项目)。在第二类中,我们的ClusterMax AI云评级是衡量相对优势的最佳方式。铂金和金级AI云的市场吸引力更强,定价权也更高。因此,CoreWeave、Oracle、Nebius、Crusoe和Azure等云服务商在多租户GPU集群方面表现优于市场——这些集群需要高性能和先进的软件层。
正如两年前预测的那样,亚马逊表现不佳的关键是使用自定义网络架构EFA。AWS在前端网络上的ENA成功尚未转化为后端的EFA。EFA在性能上仍然落后于其他网络选项:NVIDIA的InfiniBand和Spectrum-X,以及Cisco、Arista和Juniper的RoCEv2选项。原始性能不是唯一指标,EFA的用户体验也不如InfiniBand和RoCEv2。不过,亚马逊最新的EFAv4在实际消息大小上的性能正在改善,但仍落后于竞争对手。亚马逊的自定义网络也因其对Nvidia系统的定制需求而降低了上市速度。其他方面,比如先进的无源和有源自动化每周健康检查策略,也不如金级和铂金级云服务商那么完善。
对AWS的XPU业务增长更重要的是获得锚定客户——这些客户是生成式AI第一波需求中的市场创造者。规模、上市速度、深度合作和定价是赢得这些账户的关键,而非高级软件层。没有比微软更能说明这一点的公司。Azure在AI上的卓越表现完全由其与OpenAI的合作驱动。截至2025年第二季度,OpenAI超过100亿美元的云支出全部由Azure承接。亚马逊早早认识到锚定客户的重要性,于2023年9月向Anthropic投资12.5亿美元(可扩展至40亿美元)。2024年3月,合作扩大,Anthropic承诺使用Trainium和Inferentia芯片。2024年11月,亚马逊再向Anthropic投资40亿美元,后者将AWS指定为其主要LLM训练合作伙伴。
亚马逊的赌注是正确的。Anthropic在2025年生成式AI市场中表现明显优于同行,收入从10亿美元激增至50亿美元年化。在此背景下,AWS的表现不佳令投资者沮丧,但他们误解了Anthropic在训练和推理上支出的构成。有两个明确的原因解释为何亚马逊尚未真正从与Anthropic的关系中受益:截至2025年第二季度,Anthropic的云支出仅为OpenAI的一半多;Anthropic支出中有很大一部分流向了谷歌云——后者是Anthropic早期主要投资者(2022年底3亿美元轮次)和2023-2024年的首选云合作伙伴。
我们认为,Anthropic激增的推理需求大部分由谷歌云满足。拥有全球最佳推理系统(TPU)是关键竞争优势。AWS的基础设施建设旨在为其关键客户获取这部分份额,同时专注于训练。虽然Anthropic比同行更少头条,但它全力投入AGI竞赛,并计划在训练上毫不吝啬。Anthropic领导层真正相信强化学习的扩展定律。他们的信念今年就会实现。我们展示三个处于最后建设阶段的AWS园区,拥有超过1.3吉瓦的IT容量,专门用于满足Anthropic的训练需求。建设速度惊人。虽然这些数据中心看起来已建成,但我们认为它们尚未产生任何可观的收入。Trainium在组装阶段遇到了一些良品率问题——这对于新系统而言相当正常。我们认为这三个大型AWS园区将在2025年底前对AWS营收做出实质性贡献,并将其增速推高至20%以上。
Anthropic没有止步。其约130亿美元、估值1830亿美元的融资轮将提供资本,与AWS、谷歌等签署更多协议。AWS也没有停滞——他们已经在破土动工建设未来的吉瓦级数据中心以抓住这一增长。如前所述,这些数据中心将主要填充AWS的自定义芯片Trainium。鉴于规模之大,我们不能低估Anthropic的赌注有多么大胆。他们不仅承诺花费数百亿美元,而且是在一个很大程度上未经证明的芯片上这样做!让我们通过深入分析Trainium的TCO和路线图,来理解他们的赌注。
Trainium2的供应链信号目前非常强劲。我们行业领先的AI加速器模型追踪了芯片封装和系统/机架的发货量,自年初以来大幅增长。该模型提供了Trainium2和Trainium3产品系列中10多个SKU的季度出货量预测,并指出某些供应商将因特定SKU而受益。与Nvidia和谷歌TPU竞争当然绝非易事。虽然谷歌正在推出其第七代TPU Ironwood,但Trainium2只是亚马逊的第三代AI加速器。芯片规格上,Trainium在各方面都明显落后于Nvidia:Nvidia GB200的FP16算力是Trainium2的3.85倍,内存带宽差距缩小到2.75倍。规模网络带宽方面,Nvidia GB200 NVL72的总内存带宽是Trainium2的3.1倍。但考虑总拥有成本(TCO)后,情况发生了变化。Trainium2在每TCO内存带宽上极具竞争力。而Anthropic正是押注于硬件-软件协同设计。Trainium2的每TCO内存带宽优势是理解Anthropic选择的关键。Anthropic是扩展后训练技术(如强化学习)最激进的AI实验室,其路线图更受内存带宽限制而非算力限制。
Anthropic的崛起将使它不仅成为Trainium2唯一的大型外部终端用户,其规模还将远大于亚马逊内部需求(如Bedrock、Alexa等)。他们现已深度参与所有Trainium设计决策,实际上将亚马逊的Annapurna Labs作为定制芯片合作伙伴!这使得Anthropic成为除Google DeepMind外唯一受益于紧密硬件-软件协同设计的AI实验室。
亚马逊正为其锚定客户推出新的系统级架构。目前,AWS部署的两套系统是Teton PD和Teton PD Ultra。明年,新的Teton PDS和Teton Max将大量出货。关键区别在于引入了全互联规模网络NeuronLinkv3。Trainium的架构正趋近于Nvidia的NVL72 NVLink。四个NeuronLinkv3交换托盘将放置在机架中间,16个计算托盘均匀分布在上下。某些供应链供应商将受益。我们认为PDS的引入是Trainium追赶Nvidia的中间步骤,而Anthropic深度参与了这一新系统级架构的推出。
Anthropic越来越多地参与设计决策,预示着未来出货量看涨。但他们并未放弃TPU和Nvidia GPU。我们的加速器模型预测了亚马逊和谷歌云按精确SKU划分的芯片采购量,数据中心模型则用于理解哪些数据中心和云合作伙伴支持Anthropic的增长。2026年Anthropic的TPU用量巨大,其协议中有独特方面。
现在,让我们展望更长期的未来,评估AWS可能的面貌。在付费墙后,我们讨论以下项目:关键客户Anthropic的前景;AWS超越Anthropic的生成式AI业务:Bedrock和内部LLM努力;2026年和2027年的Trainium增长、潜在新外部客户,以及它如何影响亚马逊未来几年的财务状况。