2026-06-06 22:11 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

AI背後的硬件

本文深入探討了AI硬件的基礎，從晶體管、半導體到GPU架構，解釋了芯片製造、製程微縮歷史及CUDA的重要性。

這篇文章是“解構AI”系列的第一部分，由一位前Meta工程師撰寫，他因個人原因離開後開始深入研究AI硬件。他首先從晶體管講起：晶體管是一種半導體器件，通過小信號控制大電流，用於放大或開關。半導體的導電性可通過摻雜改變，最常見的材料是硅。芯片的設計主要由英偉達、AMD等公司完成，但這些公司都是“無晶圓廠”設計商，實際生產外包給台積電（TSMC）這樣的代工廠，後者佔據全球代工收入的70%。台積電的生產依賴ASML的極紫外（EUV）光刻機，ASML在EUV領域幾乎壟斷，經過30年研發才達到如今水平。光刻機每秒發射5萬滴錫滴，產生13.5nm波長的光源，這比任何自然光都短。

接下來，文章回顧了芯片製程微縮的歷史。1971年Intel 4004採用10微米工藝，此後幾十年中，製程從600nm逐步縮小到45nm。但在21世紀初，微縮遇到瓶頸，ASML在2003-04年賭注浸沒式光刻，通過在水下進行曝光突破了障礙，從而擊敗了尼康和佳能。如今，手機芯片已進入3nm時代，英偉達的GPU普遍採用5/4/3nm節點。不過，這些納米數字已不再代表實際柵極長度，更多是營銷術語，真正的進步在於晶體管密度（每平方毫米百萬個晶體管）。

從CPU到GPU的轉變是AI計算的關鍵。1971年出現的CPU在圖形渲染方面能力不足，而GPU通過集成數千個簡單核心實現了強大的並行處理能力。英偉達在1999年提出GPU概念，並在2006年推出CUDA平台，允許CPU將並行計算任務卸載到GPU。CUDA構建了一個龐大的生態系統，包括PyTorch和TensorFlow等框架。2012年，AlexNet在GTX 580上訓練成功，證明了GPU訓練深度神經網絡的可行性。

文章還詳細剖析了英偉達Blackwell GPU架構。Blackwell由兩個通過NV-HBI互連的晶片組成，每個晶片包含4個圖形處理集羣（GPC），每個GPC有20個流式多處理器（SM），總共160個SM。GigaThread引擎負責任務調度，支持多實例GPU（MIG）分割，最多可分成7個邏輯GPU，適合雲服務商提供多租户環境。NV-HBI互連帶寬達10 TB/s，PCIe Gen 6接口進一步提升了數據傳輸效率。文章雖然因篇幅限制未完全展開，但已清晰展示了從晶體管到GPU架構的全貌，為理解AI硬件提供了堅實基礎。