AI News HubLIVE
站内改写2 分鐘閱讀

英偉達Groq 3:AI推理時代(可能)來臨

英偉達發佈Groq 3語言處理單元(LPU),專為AI推理設計,採用SRAM內存架構實現極低延遲。該芯片基於從Groq公司授權的技術,與Vera Rubin GPU配合使用,通過推理分離技術優化性能,標誌着AI推理市場進入新階段。

來源Hacker News AI作者: mdp2021

本週,超過3萬人聚集在加州聖何塞參加英偉達GTC大會——這場被稱為“AI界超級碗”的盛會。在主題演講中,英偉達CEO黃仁勳宣佈推出新一代Vera Rubin芯片,並特別介紹了Groq 3語言處理單元(LPU)。這是英偉達首款專為AI推理設計的芯片,集成了去年聖誕節前夕以200億美元從Groq公司獲得授權的技術。

黃仁勳在演講中表示:“AI終於能夠進行生產性工作,因此推理的轉折點已經到來。AI現在需要思考,而思考就需要推理;AI現在需要行動,而行動就需要推理。”

訓練和推理任務對計算資源的要求截然不同。訓練可以同時處理海量數據並耗時數週,而推理必須在用户查詢到達時實時運行。與訓練不同,推理不需要昂貴的反向傳播。對於推理而言,最重要的是低延遲——用户期望聊天機器人快速響應,而對於思考或推理模型,在用户看到輸出之前,推理可能已運行多次。

過去幾年,專用推理芯片初創公司經歷了“寒武紀大爆發”,各種公司探索不同的加速方法,包括D-matrix的數字內存計算、Etched的變壓器推理ASIC、Rain AI的神經形態芯片、EnCharge的模擬內存計算、Tensordyne的對數數學優化、FuriosaAI的張量操作硬件等。去年年底,英偉達與Groq達成協議,似乎已從眾多推理芯片中挑選了一個贏家。僅在兩個半月後,英偉達就發佈了Groq 3 LPU,凸顯了推理市場增長的緊迫性。

Groq加速推理的方法是將處理單元與內存單元交錯集成在芯片上。它不依賴GPU旁的高帶寬內存(HBM),而是使用集成在處理器內部的SRAM內存。這種設計極大地簡化了數據流,使其能夠以流線型的線性方式運行。Groq前首席技術佈道師、現任英偉達開發者營銷總監Mark Heaps在2024年的超級計算會議上解釋説:“數據實際上直接流經SRAM。而在多核GPU上,許多指令需要發送到片外內存再返回。我們沒有這個問題,所有數據以線性順序通過。”

使用SRAM使線性數據流異常快速,從而實現推理所需的低延遲。英偉達副總裁兼超大規模與高性能計算總經理Ian Buck表示:“LPU專門優化用於極低延遲的令牌生成。”

對比Rubin GPU和Groq 3 LPU可以凸顯差異。Rubin GPU擁有288 GB的HBM,4位計算能力為50 petaFLOPS;而Groq 3 LPU僅包含500 MB SRAM,8位計算能力為1.2 petaFLOPS。但Rubin GPU內存帶寬為22 TB/s,而Groq 3 LPU達到150 TB/s,是其七倍。這種精簡、注重速度的設計使LPU在推理方面表現出色。

新推理芯片凸顯了AI採用率持續增長的趨勢,即計算負載從構建更大模型轉向大規模使用模型。D-matrix CEO Sid Sheth表示:“英偉達的宣佈驗證了SRAM架構在大規模推理中的重要性,而D-matrix在SRAM密度方面領先。我們認為數據中心客户將需要多種推理處理器,成功的系統將結合不同類型的芯片,並輕鬆融入現有數據中心。”

專用推理芯片並非唯一方案。上週晚些時候,亞馬遜雲服務(AWS)宣佈將在其數據中心部署新型推理系統,該系統結合了AWS的Tranium AI加速器和Cerebras Systems的第三代計算機CS-3,後者基於有史以來最大的單芯片構建。該系統利用推理分離技術,將推理分為處理提示(預填充)和生成輸出(解碼)兩部分。預填充本質上是並行的、計算密集型的,不需要太多內存帶寬;而解碼是更串行的過程,需要大量內存帶寬。Cerebras通過在其芯片上集成44 GB SRAM並通過21 PB/s網絡連接,最大化了內存帶寬。

英偉達也計劃在其新的計算機架Nvidia Groq 3 LPX中利用推理分離技術。每個托盤包含8個Groq 3 LPU,LPX將與Vera Rubin NVL72機架(英偉達現有的GPU和CPU機架)協同工作。預填充和解碼中計算密集的部分在Vera Rubin上完成,而最終部分在Groq 3 LPU上完成,充分發揮每種芯片的優勢。黃仁勳表示:“我們已經開始量產。”

(注:本文發表於2026年5月印刷版,標題為《AI推理時代即將來臨》。)