2026-06-03 13:36 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

輝達Groq 3：AI推理時代（可能）來臨

輝達釋出Groq 3語言處理單元（LPU），專為AI推理設計，採用SRAM記憶體架構實現極低延遲。該晶片基於從Groq公司授權的技術，與Vera Rubin GPU配合使用，透過推理分離技術最佳化效能，標誌著AI推理市場進入新階段。

來源Hacker News AI作者: mdp2021

本週，超過3萬人聚集在加州聖何塞參加輝達GTC大會——這場被稱為“AI界超級碗”的盛會。在主題演講中，輝達CEO黃仁勳宣佈推出新一代Vera Rubin晶片，並特別介紹了Groq 3語言處理單元（LPU）。這是輝達首款專為AI推理設計的晶片，整合了去年聖誕節前夕以200億美元從Groq公司獲得授權的技術。

黃仁勳在演講中表示：“AI終於能夠進行生產性工作，因此推理的轉折點已經到來。AI現在需要思考，而思考就需要推理；AI現在需要行動，而行動就需要推理。”

訓練和推理任務對計算資源的要求截然不同。訓練可以同時處理海量資料並耗時數週，而推理必須在使用者查詢到達時即時執行。與訓練不同，推理不需要昂貴的反向傳播。對於推理而言，最重要的是低延遲——使用者期望聊天機器人快速響應，而對於思考或推理模型，在使用者看到輸出之前，推理可能已執行多次。

過去幾年，專用推理晶片初創公司經歷了“寒武紀大爆發”，各種公司探索不同的加速方法，包括D-matrix的數字記憶體計算、Etched的變壓器推理ASIC、Rain AI的神經形態晶片、EnCharge的模擬記憶體計算、Tensordyne的對數數學最佳化、FuriosaAI的張量操作硬體等。去年年底，輝達與Groq達成協議，似乎已從眾多推理晶片中挑選了一個贏家。僅在兩個半月後，輝達就釋出了Groq 3 LPU，凸顯了推理市場增長的緊迫性。

Groq加速推理的方法是將處理單元與記憶體單元交錯整合在晶片上。它不依賴GPU旁的高頻寬記憶體（HBM），而是使用整合在處理器內部的SRAM記憶體。這種設計極大地簡化了資料流，使其能夠以流線型的線性方式執行。Groq前首席技術佈道師、現任輝達開發者營銷總監Mark Heaps在2024年的超級計算會議上解釋說：“資料實際上直接流經SRAM。而在多核GPU上，許多指令需要傳送到片外記憶體再返回。我們沒有這個問題，所有資料以線性順序透過。”

使用SRAM使線性資料流異常快速，從而實現推理所需的低延遲。輝達副總裁兼超大規模與高效能運算總經理Ian Buck表示：“LPU專門最佳化用於極低延遲的令牌生成。”

對比Rubin GPU和Groq 3 LPU可以凸顯差異。Rubin GPU擁有288 GB的HBM，4位計算能力為50 petaFLOPS；而Groq 3 LPU僅包含500 MB SRAM，8位計算能力為1.2 petaFLOPS。但Rubin GPU記憶體頻寬為22 TB/s，而Groq 3 LPU達到150 TB/s，是其七倍。這種精簡、注重速度的設計使LPU在推理方面表現出色。

新推理晶片凸顯了AI採用率持續增長的趨勢，即計算負載從構建更大模型轉向大規模使用模型。D-matrix CEO Sid Sheth表示：“輝達的宣佈驗證了SRAM架構在大規模推理中的重要性，而D-matrix在SRAM密度方面領先。我們認為資料中心客戶將需要多種推理處理器，成功的系統將結合不同型別的晶片，並輕鬆融入現有資料中心。”

專用推理晶片並非唯一方案。上週晚些時候，亞馬遜雲服務（AWS）宣佈將在其資料中心部署新型推理系統，該系統結合了AWS的Tranium AI加速器和Cerebras Systems的第三代計算機CS-3，後者基於有史以來最大的單晶片構建。該系統利用推理分離技術，將推理分為處理提示（預填充）和生成輸出（解碼）兩部分。預填充本質上是並行的、計算密集型的，不需要太多記憶體頻寬；而解碼是更序列的過程，需要大量記憶體頻寬。Cerebras透過在其晶片上整合44 GB SRAM並透過21 PB/s網路連線，最大化了記憶體頻寬。

輝達也計劃在其新的計算機架Nvidia Groq 3 LPX中利用推理分離技術。每個托盤包含8個Groq 3 LPU，LPX將與Vera Rubin NVL72機架（輝達現有的GPU和CPU機架）協同工作。預填充和解碼中計算密集的部分在Vera Rubin上完成，而最終部分在Groq 3 LPU上完成，充分發揮每種晶片的優勢。黃仁勳表示：“我們已經開始量產。”

（注：本文發表於2026年5月印刷版，標題為《AI推理時代即將來臨》。）