AI News HubLIVE
站内改写2 分鐘閱讀

新型伺服器有望突破AI的“記憶體牆”

AI硬體初創公司Majestic Labs正在開發一種名為Prometheus的新型AI伺服器,配備高達128TB的記憶體,是Nvidia DGX B300伺服器的60倍以上。該伺服器採用DRAM中心架構,使用專有微型銅纜記憶體介面和自定義記憶體聚合晶片,提供高達25.6TB/s的頻寬。它包含12個Ignite AI處理器,結合ARM和RISC-V核心,支援PyTorch、vLLM和Triton框架,無需修改程式碼。預計2027年發貨,聲稱可將資本支出和功耗降低10至50倍。

來源IEEE Spectrum AI作者: Matthew S. Smith

AI硬體初創公司Majestic Labs正在直接且全面地解決大型語言模型(LLM)面臨的“記憶體牆”問題。該公司正在開發一種名為Prometheus的新型AI伺服器,其記憶體容量高達128TB,是Nvidia DGX B300伺服器(一款尖端AI處理機架)的60倍以上。Majestic Labs聯合創始人兼總裁Sha Rabii認為,這種記憶體的急劇增加將為公司帶來優勢。他承認“Nvidia在建立可擴充套件系統方面做得非常出色”,但認為隨著模型增長,其系統變得不那麼經濟,“最終過度配置計算資源,而記憶體卻嚴重不足”。

為了克服“記憶體牆”,Majestic Labs採用了一種與競爭對手截然不同的架構。Nvidia當前的伺服器使用快速的高頻寬記憶體(HBM)來讀取LLM模型權重,並配有一個較大但較慢的動態隨機存取記憶體(DRAM)池來處理開銷。Majestic則完全轉向DRAM(特別是LPDDR6),採用統一架構。Rabii指出,大多數記憶體介面設計在極短物理距離(有時僅幾毫米)內工作,限制了記憶體容量。Majestic使用一種由微型銅纜構成的專有記憶體介面,有效距離可達一米,並配合定製記憶體聚合晶片,這些晶片物理上位於記憶體模組旁邊,協調整個伺服器的記憶體。該設計在提供大量記憶體池的同時,還能實現高達25.6TB/s的記憶體頻寬。

Prometheus伺服器還配備了Ignite AI處理單元,每個伺服器包含12個Ignite晶片。Ignite將資料中心級ARM應用核心與RISC-V向量和張量核心整合在單個晶片上,共享同一記憶體空間。ARM核心充當片上主機處理器來編排AI模型,RISC-V核心負責實際的LLM處理,無需在處理器之間切換。Majestic Labs尚未公佈Prometheus的具體計算效能指標。Rabii強調軟體的重要性,Prometheus將支援PyTorch、vLLM和OpenAI的Triton推理框架,無需修改程式碼即可直接執行現有模型。

伺服器本身採用開放式計算專案(Open Compute Project)相容的規格,寬21英寸,深36英寸。一個機架最多可容納四臺伺服器,總功耗預計高達120千瓦,透過冷板液冷散熱。記憶體設計模組化,購買時記憶體低於128TB的伺服器可在日後升級。儘管配置強大,Majestic希望以價格取勝,因為使用DRAM而非HBM記憶體。定價尚未公佈,Prometheus預計於2027年發貨。Rabii聲稱:“客戶的資本支出將根據工作負載降低10到50倍,功耗也類似地降低。”