2026-06-03 13:36 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

英偉達Groq 3：AI推理時代（可能）來臨

英偉達發佈Groq 3語言處理單元（LPU），專為AI推理設計，採用SRAM內存架構實現極低延遲。該芯片基於從Groq公司授權的技術，與Vera Rubin GPU配合使用，通過推理分離技術優化性能，標誌着AI推理市場進入新階段。

來源Hacker News AI作者: mdp2021

本週，超過3萬人聚集在加州聖何塞參加英偉達GTC大會——這場被稱為“AI界超級碗”的盛會。在主題演講中，英偉達CEO黃仁勳宣佈推出新一代Vera Rubin芯片，並特別介紹了Groq 3語言處理單元（LPU）。這是英偉達首款專為AI推理設計的芯片，集成了去年聖誕節前夕以200億美元從Groq公司獲得授權的技術。

黃仁勳在演講中表示：“AI終於能夠進行生產性工作，因此推理的轉折點已經到來。AI現在需要思考，而思考就需要推理；AI現在需要行動，而行動就需要推理。”

訓練和推理任務對計算資源的要求截然不同。訓練可以同時處理海量數據並耗時數週，而推理必須在用户查詢到達時實時運行。與訓練不同，推理不需要昂貴的反向傳播。對於推理而言，最重要的是低延遲——用户期望聊天機器人快速響應，而對於思考或推理模型，在用户看到輸出之前，推理可能已運行多次。

過去幾年，專用推理芯片初創公司經歷了“寒武紀大爆發”，各種公司探索不同的加速方法，包括D-matrix的數字內存計算、Etched的變壓器推理ASIC、Rain AI的神經形態芯片、EnCharge的模擬內存計算、Tensordyne的對數數學優化、FuriosaAI的張量操作硬件等。去年年底，英偉達與Groq達成協議，似乎已從眾多推理芯片中挑選了一個贏家。僅在兩個半月後，英偉達就發佈了Groq 3 LPU，凸顯了推理市場增長的緊迫性。

Groq加速推理的方法是將處理單元與內存單元交錯集成在芯片上。它不依賴GPU旁的高帶寬內存（HBM），而是使用集成在處理器內部的SRAM內存。這種設計極大地簡化了數據流，使其能夠以流線型的線性方式運行。Groq前首席技術佈道師、現任英偉達開發者營銷總監Mark Heaps在2024年的超級計算會議上解釋説：“數據實際上直接流經SRAM。而在多核GPU上，許多指令需要發送到片外內存再返回。我們沒有這個問題，所有數據以線性順序通過。”

使用SRAM使線性數據流異常快速，從而實現推理所需的低延遲。英偉達副總裁兼超大規模與高性能計算總經理Ian Buck表示：“LPU專門優化用於極低延遲的令牌生成。”

對比Rubin GPU和Groq 3 LPU可以凸顯差異。Rubin GPU擁有288 GB的HBM，4位計算能力為50 petaFLOPS；而Groq 3 LPU僅包含500 MB SRAM，8位計算能力為1.2 petaFLOPS。但Rubin GPU內存帶寬為22 TB/s，而Groq 3 LPU達到150 TB/s，是其七倍。這種精簡、注重速度的設計使LPU在推理方面表現出色。

新推理芯片凸顯了AI採用率持續增長的趨勢，即計算負載從構建更大模型轉向大規模使用模型。D-matrix CEO Sid Sheth表示：“英偉達的宣佈驗證了SRAM架構在大規模推理中的重要性，而D-matrix在SRAM密度方面領先。我們認為數據中心客户將需要多種推理處理器，成功的系統將結合不同類型的芯片，並輕鬆融入現有數據中心。”

專用推理芯片並非唯一方案。上週晚些時候，亞馬遜雲服務（AWS）宣佈將在其數據中心部署新型推理系統，該系統結合了AWS的Tranium AI加速器和Cerebras Systems的第三代計算機CS-3，後者基於有史以來最大的單芯片構建。該系統利用推理分離技術，將推理分為處理提示（預填充）和生成輸出（解碼）兩部分。預填充本質上是並行的、計算密集型的，不需要太多內存帶寬；而解碼是更串行的過程，需要大量內存帶寬。Cerebras通過在其芯片上集成44 GB SRAM並通過21 PB/s網絡連接，最大化了內存帶寬。

英偉達也計劃在其新的計算機架Nvidia Groq 3 LPX中利用推理分離技術。每個托盤包含8個Groq 3 LPU，LPX將與Vera Rubin NVL72機架（英偉達現有的GPU和CPU機架）協同工作。預填充和解碼中計算密集的部分在Vera Rubin上完成，而最終部分在Groq 3 LPU上完成，充分發揮每種芯片的優勢。黃仁勳表示：“我們已經開始量產。”

（注：本文發表於2026年5月印刷版，標題為《AI推理時代即將來臨》。）