2025-09-04 04:55 UTC+8站内改写5 分钟阅读更新: 2026-06-27 08:25 UTC+8

亚马逊的AI复兴：AWS与Anthropic的多千兆瓦Trainium扩张

两年前SemiAnalysis曾警告AWS面临“云危机”，如今危机显现：Azure在季度新增云收入上领先，谷歌云与AWS差距缩小。但SemiAnalysis逆势看多，认为AWS将迎来AI复兴，核心驱动力是合作伙伴Anthropic。Anthropic 2025年收入从10亿美元激增至50亿美元，AWS为其建设了超过1.3吉瓦的数据中心，用于部署近百万颗Trainium2芯片。尽管Trainium2在性能上落后于Nvidia，但其每TCO内存带宽优势契合Anthropic的强化学习路线。AWS与Anthropic的合作正走向深度硬件-软件协同设计，有望在2025年底推动AWS云增速超过20%。

来源SemiAnalysis作者: Jeremie Eliahou Ontiveros

两年半前，SemiAnalysis曾预警AWS可能面临“云危机”。如今，证据已经累积。AWS是亚马逊帝国的皇冠明珠，贡献约60%的集团利润，主导着利润丰厚的云计算市场。但在新的GPU/XPU云时代，它难以将这一优势转化。微软Azure目前在季度新增云收入上领先市场，谷歌云与AWS的差距也大幅缩小，尤其是谷歌在TPU上的大动作。市场已经注意到这一点。今年至今，亚马逊是四大科技和AI巨头中表现最落后的，投资者因其在AI领域失去势头而给予最低估值。

然而，SemiAnalysis今天提出一个反共识的观点：虽然市场过度炒作“云危机”主题，但我们认为AWS将迎来AI复兴。一个月前我们已向核心研究用户阐述了这一论点，预测到2025年底其增速将加速至超过20%的同比增长。

亚马逊的救星名叫Anthropic。这家初创公司在2025年的生成式AI市场中表现明显优于同行，收入从年初的10亿美元年化增长至50亿美元，翻了五倍。为了保持这一势头，Anthropic正在大力押注扩展定律。虽然Dario的初创公司比OpenAI、xAI和Meta Superintelligence获得的头条新闻少，但它并不羞于投资。AWS拥有超过1千兆瓦的数据中心容量正在最后建设阶段，专门用于服务其锚定客户。AWS的建设速度是其历史上最快的。

这些设施的不同之处在于其内部：它们将容纳世界上最大的非Nvidia AI芯片集群，在最大的园区中拥有近一百万个Trainium2。Trainium2在许多方面落后于Nvidia的系统，但它对AWS/Anthropic的多千兆瓦交易至关重要。其每TCO内存带宽优势完美契合Anthropic激进的强化学习路线。Dario Amodei的初创公司深度参与了设计过程，其对Trainium路线图的影响力只会越来越大。简言之，Trainium2正趋向于Anthropic的定制芯片计划。这将使Anthropic成为除Google DeepMind外，在近期唯一受益于紧密硬件-软件协同设计的AI实验室。

本报告将深入探讨亚马逊AI复兴的各个方面：Anthropic合作、数据中心和Trainium。报告末尾，我们将提供对Anthropic、AWS Bedrock和内部模型的长期展望，并解释为什么一切并非一帆风顺。

首先，回顾一下AWS为何至今表现落后于竞争对手的AI云。为了理解亚马逊在生成式AI时代表现不佳的原因，我们可以分析GPU/XPU云市场成功的驱动因素。简单来说，我们将GPU/XPU容量的客户分为两类：批发裸机用户（如OpenAI、Anthropic、字节跳动等大型客户）和托管SLURM/Kubernetes用户（如初创公司、研究机构和企业试点项目）。在第二类中，我们的ClusterMax AI云评级是衡量相对优势的最佳方式。铂金和金级AI云的市场吸引力更强，定价权也更高。因此，CoreWeave、Oracle、Nebius、Crusoe和Azure等云服务商在多租户GPU集群方面表现优于市场——这些集群需要高性能和先进的软件层。

正如两年前预测的那样，亚马逊表现不佳的关键是使用自定义网络架构EFA。AWS在前端网络上的ENA成功尚未转化为后端的EFA。EFA在性能上仍然落后于其他网络选项：NVIDIA的InfiniBand和Spectrum-X，以及Cisco、Arista和Juniper的RoCEv2选项。原始性能不是唯一指标，EFA的用户体验也不如InfiniBand和RoCEv2。不过，亚马逊最新的EFAv4在实际消息大小上的性能正在改善，但仍落后于竞争对手。亚马逊的自定义网络也因其对Nvidia系统的定制需求而降低了上市速度。其他方面，比如先进的无源和有源自动化每周健康检查策略，也不如金级和铂金级云服务商那么完善。

对AWS的XPU业务增长更重要的是获得锚定客户——这些客户是生成式AI第一波需求中的市场创造者。规模、上市速度、深度合作和定价是赢得这些账户的关键，而非高级软件层。没有比微软更能说明这一点的公司。Azure在AI上的卓越表现完全由其与OpenAI的合作驱动。截至2025年第二季度，OpenAI超过100亿美元的云支出全部由Azure承接。亚马逊早早认识到锚定客户的重要性，于2023年9月向Anthropic投资12.5亿美元（可扩展至40亿美元）。2024年3月，合作扩大，Anthropic承诺使用Trainium和Inferentia芯片。2024年11月，亚马逊再向Anthropic投资40亿美元，后者将AWS指定为其主要LLM训练合作伙伴。

亚马逊的赌注是正确的。Anthropic在2025年生成式AI市场中表现明显优于同行，收入从10亿美元激增至50亿美元年化。在此背景下，AWS的表现不佳令投资者沮丧，但他们误解了Anthropic在训练和推理上支出的构成。有两个明确的原因解释为何亚马逊尚未真正从与Anthropic的关系中受益：截至2025年第二季度，Anthropic的云支出仅为OpenAI的一半多；Anthropic支出中有很大一部分流向了谷歌云——后者是Anthropic早期主要投资者（2022年底3亿美元轮次）和2023-2024年的首选云合作伙伴。

我们认为，Anthropic激增的推理需求大部分由谷歌云满足。拥有全球最佳推理系统（TPU）是关键竞争优势。AWS的基础设施建设旨在为其关键客户获取这部分份额，同时专注于训练。虽然Anthropic比同行更少头条，但它全力投入AGI竞赛，并计划在训练上毫不吝啬。Anthropic领导层真正相信强化学习的扩展定律。他们的信念今年就会实现。我们展示三个处于最后建设阶段的AWS园区，拥有超过1.3吉瓦的IT容量，专门用于满足Anthropic的训练需求。建设速度惊人。虽然这些数据中心看起来已建成，但我们认为它们尚未产生任何可观的收入。Trainium在组装阶段遇到了一些良品率问题——这对于新系统而言相当正常。我们认为这三个大型AWS园区将在2025年底前对AWS营收做出实质性贡献，并将其增速推高至20%以上。

Anthropic没有止步。其约130亿美元、估值1830亿美元的融资轮将提供资本，与AWS、谷歌等签署更多协议。AWS也没有停滞——他们已经在破土动工建设未来的吉瓦级数据中心以抓住这一增长。如前所述，这些数据中心将主要填充AWS的自定义芯片Trainium。鉴于规模之大，我们不能低估Anthropic的赌注有多么大胆。他们不仅承诺花费数百亿美元，而且是在一个很大程度上未经证明的芯片上这样做！让我们通过深入分析Trainium的TCO和路线图，来理解他们的赌注。

Trainium2的供应链信号目前非常强劲。我们行业领先的AI加速器模型追踪了芯片封装和系统/机架的发货量，自年初以来大幅增长。该模型提供了Trainium2和Trainium3产品系列中10多个SKU的季度出货量预测，并指出某些供应商将因特定SKU而受益。与Nvidia和谷歌TPU竞争当然绝非易事。虽然谷歌正在推出其第七代TPU Ironwood，但Trainium2只是亚马逊的第三代AI加速器。芯片规格上，Trainium在各方面都明显落后于Nvidia：Nvidia GB200的FP16算力是Trainium2的3.85倍，内存带宽差距缩小到2.75倍。规模网络带宽方面，Nvidia GB200 NVL72的总内存带宽是Trainium2的3.1倍。但考虑总拥有成本（TCO）后，情况发生了变化。Trainium2在每TCO内存带宽上极具竞争力。而Anthropic正是押注于硬件-软件协同设计。Trainium2的每TCO内存带宽优势是理解Anthropic选择的关键。Anthropic是扩展后训练技术（如强化学习）最激进的AI实验室，其路线图更受内存带宽限制而非算力限制。

Anthropic的崛起将使它不仅成为Trainium2唯一的大型外部终端用户，其规模还将远大于亚马逊内部需求（如Bedrock、Alexa等）。他们现已深度参与所有Trainium设计决策，实际上将亚马逊的Annapurna Labs作为定制芯片合作伙伴！这使得Anthropic成为除Google DeepMind外唯一受益于紧密硬件-软件协同设计的AI实验室。

亚马逊正为其锚定客户推出新的系统级架构。目前，AWS部署的两套系统是Teton PD和Teton PD Ultra。明年，新的Teton PDS和Teton Max将大量出货。关键区别在于引入了全互联规模网络NeuronLinkv3。Trainium的架构正趋近于Nvidia的NVL72 NVLink。四个NeuronLinkv3交换托盘将放置在机架中间，16个计算托盘均匀分布在上下。某些供应链供应商将受益。我们认为PDS的引入是Trainium追赶Nvidia的中间步骤，而Anthropic深度参与了这一新系统级架构的推出。

Anthropic越来越多地参与设计决策，预示着未来出货量看涨。但他们并未放弃TPU和Nvidia GPU。我们的加速器模型预测了亚马逊和谷歌云按精确SKU划分的芯片采购量，数据中心模型则用于理解哪些数据中心和云合作伙伴支持Anthropic的增长。2026年Anthropic的TPU用量巨大，其协议中有独特方面。

现在，让我们展望更长期的未来，评估AWS可能的面貌。在付费墙后，我们讨论以下项目：关键客户Anthropic的前景；AWS超越Anthropic的生成式AI业务：Bedrock和内部LLM努力；2026年和2027年的Trainium增长、潜在新外部客户，以及它如何影响亚马逊未来几年的财务状况。