輝達Groq 3:AI推理時代(可能)來臨
輝達釋出Groq 3語言處理單元(LPU),專為AI推理設計,採用SRAM記憶體架構實現極低延遲。該晶片基於從Groq公司授權的技術,與Vera Rubin GPU配合使用,透過推理分離技術最佳化效能,標誌著AI推理市場進入新階段。
本週,超過3萬人聚集在加州聖何塞參加輝達GTC大會——這場被稱為“AI界超級碗”的盛會。在主題演講中,輝達CEO黃仁勳宣佈推出新一代Vera Rubin晶片,並特別介紹了Groq 3語言處理單元(LPU)。這是輝達首款專為AI推理設計的晶片,整合了去年聖誕節前夕以200億美元從Groq公司獲得授權的技術。
黃仁勳在演講中表示:“AI終於能夠進行生產性工作,因此推理的轉折點已經到來。AI現在需要思考,而思考就需要推理;AI現在需要行動,而行動就需要推理。”
訓練和推理任務對計算資源的要求截然不同。訓練可以同時處理海量資料並耗時數週,而推理必須在使用者查詢到達時即時執行。與訓練不同,推理不需要昂貴的反向傳播。對於推理而言,最重要的是低延遲——使用者期望聊天機器人快速響應,而對於思考或推理模型,在使用者看到輸出之前,推理可能已執行多次。
過去幾年,專用推理晶片初創公司經歷了“寒武紀大爆發”,各種公司探索不同的加速方法,包括D-matrix的數字記憶體計算、Etched的變壓器推理ASIC、Rain AI的神經形態晶片、EnCharge的模擬記憶體計算、Tensordyne的對數數學最佳化、FuriosaAI的張量操作硬體等。去年年底,輝達與Groq達成協議,似乎已從眾多推理晶片中挑選了一個贏家。僅在兩個半月後,輝達就釋出了Groq 3 LPU,凸顯了推理市場增長的緊迫性。
Groq加速推理的方法是將處理單元與記憶體單元交錯整合在晶片上。它不依賴GPU旁的高頻寬記憶體(HBM),而是使用整合在處理器內部的SRAM記憶體。這種設計極大地簡化了資料流,使其能夠以流線型的線性方式執行。Groq前首席技術佈道師、現任輝達開發者營銷總監Mark Heaps在2024年的超級計算會議上解釋說:“資料實際上直接流經SRAM。而在多核GPU上,許多指令需要傳送到片外記憶體再返回。我們沒有這個問題,所有資料以線性順序透過。”
使用SRAM使線性資料流異常快速,從而實現推理所需的低延遲。輝達副總裁兼超大規模與高效能運算總經理Ian Buck表示:“LPU專門最佳化用於極低延遲的令牌生成。”
對比Rubin GPU和Groq 3 LPU可以凸顯差異。Rubin GPU擁有288 GB的HBM,4位計算能力為50 petaFLOPS;而Groq 3 LPU僅包含500 MB SRAM,8位計算能力為1.2 petaFLOPS。但Rubin GPU記憶體頻寬為22 TB/s,而Groq 3 LPU達到150 TB/s,是其七倍。這種精簡、注重速度的設計使LPU在推理方面表現出色。
新推理晶片凸顯了AI採用率持續增長的趨勢,即計算負載從構建更大模型轉向大規模使用模型。D-matrix CEO Sid Sheth表示:“輝達的宣佈驗證了SRAM架構在大規模推理中的重要性,而D-matrix在SRAM密度方面領先。我們認為資料中心客戶將需要多種推理處理器,成功的系統將結合不同型別的晶片,並輕鬆融入現有資料中心。”
專用推理晶片並非唯一方案。上週晚些時候,亞馬遜雲服務(AWS)宣佈將在其資料中心部署新型推理系統,該系統結合了AWS的Tranium AI加速器和Cerebras Systems的第三代計算機CS-3,後者基於有史以來最大的單晶片構建。該系統利用推理分離技術,將推理分為處理提示(預填充)和生成輸出(解碼)兩部分。預填充本質上是並行的、計算密集型的,不需要太多記憶體頻寬;而解碼是更序列的過程,需要大量記憶體頻寬。Cerebras透過在其晶片上整合44 GB SRAM並透過21 PB/s網路連線,最大化了記憶體頻寬。
輝達也計劃在其新的計算機架Nvidia Groq 3 LPX中利用推理分離技術。每個托盤包含8個Groq 3 LPU,LPX將與Vera Rubin NVL72機架(輝達現有的GPU和CPU機架)協同工作。預填充和解碼中計算密集的部分在Vera Rubin上完成,而最終部分在Groq 3 LPU上完成,充分發揮每種晶片的優勢。黃仁勳表示:“我們已經開始量產。”
(注:本文發表於2026年5月印刷版,標題為《AI推理時代即將來臨》。)