2026-06-06 22:11 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

AI背后的硬件

本文深入探讨了AI硬件的基础，从晶体管、半导体到GPU架构，解释了芯片制造、制程微缩历史及CUDA的重要性。

这篇文章是“解构AI”系列的第一部分，由一位前Meta工程师撰写，他因个人原因离开后开始深入研究AI硬件。他首先从晶体管讲起：晶体管是一种半导体器件，通过小信号控制大电流，用于放大或开关。半导体的导电性可通过掺杂改变，最常见的材料是硅。芯片的设计主要由英伟达、AMD等公司完成，但这些公司都是“无晶圆厂”设计商，实际生产外包给台积电（TSMC）这样的代工厂，后者占据全球代工收入的70%。台积电的生产依赖ASML的极紫外（EUV）光刻机，ASML在EUV领域几乎垄断，经过30年研发才达到如今水平。光刻机每秒发射5万滴锡滴，产生13.5nm波长的光源，这比任何自然光都短。

接下来，文章回顾了芯片制程微缩的历史。1971年Intel 4004采用10微米工艺，此后几十年中，制程从600nm逐步缩小到45nm。但在21世纪初，微缩遇到瓶颈，ASML在2003-04年赌注浸没式光刻，通过在水下进行曝光突破了障碍，从而击败了尼康和佳能。如今，手机芯片已进入3nm时代，英伟达的GPU普遍采用5/4/3nm节点。不过，这些纳米数字已不再代表实际栅极长度，更多是营销术语，真正的进步在于晶体管密度（每平方毫米百万个晶体管）。

从CPU到GPU的转变是AI计算的关键。1971年出现的CPU在图形渲染方面能力不足，而GPU通过集成数千个简单核心实现了强大的并行处理能力。英伟达在1999年提出GPU概念，并在2006年推出CUDA平台，允许CPU将并行计算任务卸载到GPU。CUDA构建了一个庞大的生态系统，包括PyTorch和TensorFlow等框架。2012年，AlexNet在GTX 580上训练成功，证明了GPU训练深度神经网络的可行性。

文章还详细剖析了英伟达Blackwell GPU架构。Blackwell由两个通过NV-HBI互连的晶片组成，每个晶片包含4个图形处理集群（GPC），每个GPC有20个流式多处理器（SM），总共160个SM。GigaThread引擎负责任务调度，支持多实例GPU（MIG）分割，最多可分成7个逻辑GPU，适合云服务商提供多租户环境。NV-HBI互连带宽达10 TB/s，PCIe Gen 6接口进一步提升了数据传输效率。文章虽然因篇幅限制未完全展开，但已清晰展示了从晶体管到GPU架构的全貌，为理解AI硬件提供了坚实基础。