推理給AI晶片初創公司提供了再次證明自己的機會
AI採用達到轉折點,焦點從訓練轉向推理,初創晶片公司有機會在多樣化的推理工作負載中搶佔Nvidia的市場份額。Nvidia收購Groq、AWS與Cerebras合作、Intel與SambaNova合作等例子表明,分解式推理正成為趨勢。Lumai的光學推理加速器和Tenstorrent的RISC-V平臺也展示了不同路線。
隨著人工智慧的採用進入一個轉折點,焦點從訓練新模型轉向服務它們,AI晶片初創公司迎來了證明自己的關鍵時刻。與訓練相比,推理工作負載更加多樣化,這為初創公司提供了在Nvidia主導的市場中開闢自己利基的機會。大型批處理推理需要與AI助手或程式碼代理不同的計算、記憶體和頻寬組合。因此,推理變得越來越異構,某些方面可能更適合GPU或其他專用硬體。
Nvidia以200億美元收購Groq就是一個典型例子。Groq的SRAM密集型晶片架構使其能夠比任何GPU更快地輸出令牌,但有限的計算能力和老化的晶片技術使其無法高效擴充套件。Nvidia透過將計算密集型的字首填充(prefill)階段移至GPU,而將頻寬受限的解碼操作保留在其新的LPU上,巧妙地解決了這一問題。
這種組合並非Nvidia獨有。在GTC之後的一週,AWS宣佈了自己的分解式計算平臺,使用其定製的Trainium加速器進行字首填充,並使用Cerebras Systems的餐盤大小的晶圓級加速器進行解碼。英特爾也加入了這一行列,宣佈了一個參考設計,將使用GPU進行字首填充,並使用AI晶片初創公司SambaNova的新型RDU進行解碼。
到目前為止,大多數AI晶片初創公司的成功都體現在解碼方面。SRAM雖然容量不大,但速度極快。因此,只要有足夠的晶片,或者像Cerebras那樣有大晶片,它們非常適合加速解碼操作,但晶片初創公司並不侷限於這一領域。本週,Lumai詳細介紹了其光學推理加速器,該加速器使用光而非電子來執行機器學習工作負載核心的矩陣乘法運算,功耗僅為純數字架構的一小部分。Lumai預計其下一代Iris Tetra系統將在2029年以10kW的功耗預算實現exaOPS的AI效能。從技術上講,這些晶片採用混合電光架構,但推理期間的大部分計算由晶片的光學張量核心處理。最初,該公司將其晶片定位為計算密集型推理工作負載(如批處理)的獨立GPU替代品。長期來看,該公司還計劃將其光學加速器用作字首填充處理器。該架構仍處於初期階段,目前能夠執行Llama 3.1 8B或70B等十億引數模型,但已經足夠成熟,這家英國初創公司已將其晶片開放給雲端計算和超大規模資料中心進行評估。
儘管如此,並非每家AI晶片初創公司都對使用不同晶片進行字首填充和解碼持積極態度。本週早些時候,Tenstorrent釋出了其基於RISC-V的Galaxy Blackhole計算平臺,該公司CEO Jim Keller毫不掩飾他對分解式推理公式的反對。“行業內的每家公司都在結對構建加速器的加速器的加速器。CPU執行程式碼,GPU加速CPU,TPU加速GPU,LPU加速TPU,以此類推。這導致了複雜的解決方案,很可能無法適應AI模型和用途的變化。在Tenstorrent,我們認為更通用、更簡單的方法會奏效,”他在一份宣告中表示。