AI News HubLIVE
站内改写2 分钟阅读

AI背后的硬件

本文深入探讨了AI硬件的基础,从晶体管、半导体到GPU架构,解释了芯片制造、制程微缩历史及CUDA的重要性。

来源Hacker News AI作者: sidwyn

这篇文章是“解构AI”系列的第一部分,由一位前Meta工程师撰写,他因个人原因离开后开始深入研究AI硬件。他首先从晶体管讲起:晶体管是一种半导体器件,通过小信号控制大电流,用于放大或开关。半导体的导电性可通过掺杂改变,最常见的材料是硅。芯片的设计主要由英伟达、AMD等公司完成,但这些公司都是“无晶圆厂”设计商,实际生产外包给台积电(TSMC)这样的代工厂,后者占据全球代工收入的70%。台积电的生产依赖ASML的极紫外(EUV)光刻机,ASML在EUV领域几乎垄断,经过30年研发才达到如今水平。光刻机每秒发射5万滴锡滴,产生13.5nm波长的光源,这比任何自然光都短。

接下来,文章回顾了芯片制程微缩的历史。1971年Intel 4004采用10微米工艺,此后几十年中,制程从600nm逐步缩小到45nm。但在21世纪初,微缩遇到瓶颈,ASML在2003-04年赌注浸没式光刻,通过在水下进行曝光突破了障碍,从而击败了尼康和佳能。如今,手机芯片已进入3nm时代,英伟达的GPU普遍采用5/4/3nm节点。不过,这些纳米数字已不再代表实际栅极长度,更多是营销术语,真正的进步在于晶体管密度(每平方毫米百万个晶体管)。

从CPU到GPU的转变是AI计算的关键。1971年出现的CPU在图形渲染方面能力不足,而GPU通过集成数千个简单核心实现了强大的并行处理能力。英伟达在1999年提出GPU概念,并在2006年推出CUDA平台,允许CPU将并行计算任务卸载到GPU。CUDA构建了一个庞大的生态系统,包括PyTorch和TensorFlow等框架。2012年,AlexNet在GTX 580上训练成功,证明了GPU训练深度神经网络的可行性。

文章还详细剖析了英伟达Blackwell GPU架构。Blackwell由两个通过NV-HBI互连的晶片组成,每个晶片包含4个图形处理集群(GPC),每个GPC有20个流式多处理器(SM),总共160个SM。GigaThread引擎负责任务调度,支持多实例GPU(MIG)分割,最多可分成7个逻辑GPU,适合云服务商提供多租户环境。NV-HBI互连带宽达10 TB/s,PCIe Gen 6接口进一步提升了数据传输效率。文章虽然因篇幅限制未完全展开,但已清晰展示了从晶体管到GPU架构的全貌,为理解AI硬件提供了坚实基础。