亞馬遜的AI復興:AWS與Anthropic的多千兆瓦Trainium擴張
兩年前SemiAnalysis曾警告AWS面臨“雲危機”,如今危機顯現:Azure在季度新增雲收入上領先,谷歌雲與AWS差距縮小。但SemiAnalysis逆勢看多,認為AWS將迎來AI復興,核心驅動力是合作伙伴Anthropic。Anthropic 2025年收入從10億美元激增至50億美元,AWS為其建設了超過1.3吉瓦的資料中心,用於部署近百萬顆Trainium2晶片。儘管Trainium2在效能上落後於Nvidia,但其每TCO記憶體頻寬優勢契合Anthropic的強化學習路線。AWS與Anthropic的合作正走向深度硬體-軟體協同設計,有望在2025年底推動AWS雲增速超過20%。
兩年半前,SemiAnalysis曾預警AWS可能面臨“雲危機”。如今,證據已經累積。AWS是亞馬遜帝國的皇冠明珠,貢獻約60%的集團利潤,主導著利潤豐厚的雲端計算市場。但在新的GPU/XPU雲時代,它難以將這一優勢轉化。微軟Azure目前在季度新增雲收入上領先市場,谷歌雲與AWS的差距也大幅縮小,尤其是谷歌在TPU上的大動作。市場已經注意到這一點。今年至今,亞馬遜是四大科技和AI巨頭中表現最落後的,投資者因其在AI領域失去勢頭而給予最低估值。
然而,SemiAnalysis今天提出一個反共識的觀點:雖然市場過度炒作“雲危機”主題,但我們認為AWS將迎來AI復興。一個月前我們已向核心研究使用者闡述了這一論點,預測到2025年底其增速將加速至超過20%的同比增長。
亞馬遜的救星名叫Anthropic。這家初創公司在2025年的生成式AI市場中表現明顯優於同行,收入從年初的10億美元年化增長至50億美元,翻了五倍。為了保持這一勢頭,Anthropic正在大力押注擴充套件定律。雖然Dario的初創公司比OpenAI、xAI和Meta Superintelligence獲得的頭條新聞少,但它並不羞於投資。AWS擁有超過1千兆瓦的資料中心容量正在最後建設階段,專門用於服務其錨定客戶。AWS的建設速度是其歷史上最快的。
這些設施的不同之處在於其內部:它們將容納世界上最大的非Nvidia AI晶片叢集,在最大的園區中擁有近一百萬個Trainium2。Trainium2在許多方面落後於Nvidia的系統,但它對AWS/Anthropic的多千兆瓦交易至關重要。其每TCO記憶體頻寬優勢完美契合Anthropic激進的強化學習路線。Dario Amodei的初創公司深度參與了設計過程,其對Trainium路線圖的影響力只會越來越大。簡言之,Trainium2正趨向於Anthropic的定製晶片計劃。這將使Anthropic成為除Google DeepMind外,在近期唯一受益於緊密硬體-軟體協同設計的AI實驗室。
本報告將深入探討亞馬遜AI復興的各個方面:Anthropic合作、資料中心和Trainium。報告末尾,我們將提供對Anthropic、AWS Bedrock和內部模型的長期展望,並解釋為什麼一切並非一帆風順。
首先,回顧一下AWS為何至今表現落後於競爭對手的AI雲。為了理解亞馬遜在生成式AI時代表現不佳的原因,我們可以分析GPU/XPU雲市場成功的驅動因素。簡單來說,我們將GPU/XPU容量的客戶分為兩類:批發裸機使用者(如OpenAI、Anthropic、字節跳動等大型客戶)和託管SLURM/Kubernetes使用者(如初創公司、研究機構和企業試點專案)。在第二類中,我們的ClusterMax AI雲評級是衡量相對優勢的最佳方式。鉑金和金級AI雲的市場吸引力更強,定價權也更高。因此,CoreWeave、Oracle、Nebius、Crusoe和Azure等雲服務商在多租戶GPU叢集方面表現優於市場——這些叢集需要高效能和先進的軟體層。
正如兩年前預測的那樣,亞馬遜表現不佳的關鍵是使用自定義網路架構EFA。AWS在前端網路上的ENA成功尚未轉化為後端的EFA。EFA在效能上仍然落後於其他網路選項:NVIDIA的InfiniBand和Spectrum-X,以及Cisco、Arista和Juniper的RoCEv2選項。原始效能不是唯一指標,EFA的使用者體驗也不如InfiniBand和RoCEv2。不過,亞馬遜最新的EFAv4在實際訊息大小上的效能正在改善,但仍落後於競爭對手。亞馬遜的自定義網路也因其對Nvidia系統的定製需求而降低了上市速度。其他方面,比如先進的無源和有源自動化每週健康檢查策略,也不如金級和鉑金級雲服務商那麼完善。
對AWS的XPU業務增長更重要的是獲得錨定客戶——這些客戶是生成式AI第一波需求中的市場創造者。規模、上市速度、深度合作和定價是贏得這些賬戶的關鍵,而非高階軟體層。沒有比微軟更能說明這一點的公司。Azure在AI上的卓越表現完全由其與OpenAI的合作驅動。截至2025年第二季度,OpenAI超過100億美元的雲支出全部由Azure承接。亞馬遜早早認識到錨定客戶的重要性,於2023年9月向Anthropic投資12.5億美元(可擴充套件至40億美元)。2024年3月,合作擴大,Anthropic承諾使用Trainium和Inferentia晶片。2024年11月,亞馬遜再向Anthropic投資40億美元,後者將AWS指定為其主要LLM訓練合作伙伴。
亞馬遜的賭注是正確的。Anthropic在2025年生成式AI市場中表現明顯優於同行,收入從10億美元激增至50億美元年化。在此背景下,AWS的表現不佳令投資者沮喪,但他們誤解了Anthropic在訓練和推理上支出的構成。有兩個明確的原因解釋為何亞馬遜尚未真正從與Anthropic的關係中受益:截至2025年第二季度,Anthropic的雲支出僅為OpenAI的一半多;Anthropic支出中有很大一部分流向了谷歌雲——後者是Anthropic早期主要投資者(2022年底3億美元輪次)和2023-2024年的首選雲合作伙伴。
我們認為,Anthropic激增的推理需求大部分由谷歌雲滿足。擁有全球最佳推理系統(TPU)是關鍵競爭優勢。AWS的基礎設施建設旨在為其關鍵客戶獲取這部分份額,同時專注於訓練。雖然Anthropic比同行更少頭條,但它全力投入AGI競賽,並計劃在訓練上毫不吝嗇。Anthropic領導層真正相信強化學習的擴充套件定律。他們的信念今年就會實現。我們展示三個處於最後建設階段的AWS園區,擁有超過1.3吉瓦的IT容量,專門用於滿足Anthropic的訓練需求。建設速度驚人。雖然這些資料中心看起來已建成,但我們認為它們尚未產生任何可觀的收入。Trainium在組裝階段遇到了一些良品率問題——這對於新系統而言相當正常。我們認為這三個大型AWS園區將在2025年底前對AWS營收做出實質性貢獻,並將其增速推高至20%以上。
Anthropic沒有止步。其約130億美元、估值1830億美元的融資輪將提供資本,與AWS、谷歌等簽署更多協議。AWS也沒有停滯——他們已經在破土動工建設未來的吉瓦級資料中心以抓住這一增長。如前所述,這些資料中心將主要填充AWS的自定義晶片Trainium。鑑於規模之大,我們不能低估Anthropic的賭注有多麼大膽。他們不僅承諾花費數百億美元,而且是在一個很大程度上未經證明的晶片上這樣做!讓我們透過深入分析Trainium的TCO和路線圖,來理解他們的賭注。
Trainium2的供應鏈訊號目前非常強勁。我們行業領先的AI加速器模型追蹤了晶片封裝和系統/機架的發貨量,自年初以來大幅增長。該模型提供了Trainium2和Trainium3產品系列中10多個SKU的季度出貨量預測,並指出某些供應商將因特定SKU而受益。與Nvidia和谷歌TPU競爭當然絕非易事。雖然谷歌正在推出其第七代TPU Ironwood,但Trainium2只是亞馬遜的第三代AI加速器。晶片規格上,Trainium在各方面都明顯落後於Nvidia:Nvidia GB200的FP16算力是Trainium2的3.85倍,記憶體頻寬差距縮小到2.75倍。規模網路頻寬方面,Nvidia GB200 NVL72的總記憶體頻寬是Trainium2的3.1倍。但考慮總擁有成本(TCO)後,情況發生了變化。Trainium2在每TCO記憶體頻寬上極具競爭力。而Anthropic正是押注於硬體-軟體協同設計。Trainium2的每TCO記憶體頻寬優勢是理解Anthropic選擇的關鍵。Anthropic是擴充套件後訓練技術(如強化學習)最激進的AI實驗室,其路線圖更受記憶體頻寬限制而非算力限制。
Anthropic的崛起將使它不僅成為Trainium2唯一的大型外部終端使用者,其規模還將遠大於亞馬遜內部需求(如Bedrock、Alexa等)。他們現已深度參與所有Trainium設計決策,實際上將亞馬遜的Annapurna Labs作為定製晶片合作伙伴!這使得Anthropic成為除Google DeepMind外唯一受益於緊密硬體-軟體協同設計的AI實驗室。
亞馬遜正為其錨定客戶推出新的系統級架構。目前,AWS部署的兩套系統是Teton PD和Teton PD Ultra。明年,新的Teton PDS和Teton Max將大量出貨。關鍵區別在於引入了全互聯規模網路NeuronLinkv3。Trainium的架構正趨近於Nvidia的NVL72 NVLink。四個NeuronLinkv3交換托盤將放置在機架中間,16個計算托盤均勻分佈在上下。某些供應鏈供應商將受益。我們認為PDS的引入是Trainium追趕Nvidia的中間步驟,而Anthropic深度參與了這一新系統級架構的推出。
Anthropic越來越多地參與設計決策,預示著未來出貨量看漲。但他們並未放棄TPU和Nvidia GPU。我們的加速器模型預測了亞馬遜和谷歌雲按精確SKU劃分的晶片採購量,資料中心模型則用於理解哪些資料中心和雲合作伙伴支援Anthropic的增長。2026年Anthropic的TPU用量巨大,其協議中有獨特方面。
現在,讓我們展望更長期的未來,評估AWS可能的面貌。在付費牆後,我們討論以下專案:關鍵客戶Anthropic的前景;AWS超越Anthropic的生成式AI業務:Bedrock和內部LLM努力;2026年和2027年的Trainium增長、潛在新外部客戶,以及它如何影響亞馬遜未來幾年的財務狀況。