新型服務器有望突破AI的“內存牆”
AI硬件初創公司Majestic Labs正在開發一種名為Prometheus的新型AI服務器,配備高達128TB的內存,是Nvidia DGX B300服務器的60倍以上。該服務器採用DRAM中心架構,使用專有微型銅纜內存接口和自定義內存聚合芯片,提供高達25.6TB/s的帶寬。它包含12個Ignite AI處理器,結合ARM和RISC-V核心,支持PyTorch、vLLM和Triton框架,無需修改代碼。預計2027年發貨,聲稱可將資本支出和功耗降低10至50倍。
AI硬件初創公司Majestic Labs正在直接且全面地解決大型語言模型(LLM)面臨的“內存牆”問題。該公司正在開發一種名為Prometheus的新型AI服務器,其內存容量高達128TB,是Nvidia DGX B300服務器(一款尖端AI處理機架)的60倍以上。Majestic Labs聯合創始人兼總裁Sha Rabii認為,這種內存的急劇增加將為公司帶來優勢。他承認“Nvidia在創建可擴展系統方面做得非常出色”,但認為隨着模型增長,其系統變得不那麼經濟,“最終過度配置計算資源,而內存卻嚴重不足”。
為了克服“內存牆”,Majestic Labs採用了一種與競爭對手截然不同的架構。Nvidia當前的服務器使用快速的高帶寬內存(HBM)來讀取LLM模型權重,並配有一個較大但較慢的動態隨機存取內存(DRAM)池來處理開銷。Majestic則完全轉向DRAM(特別是LPDDR6),採用統一架構。Rabii指出,大多數內存接口設計在極短物理距離(有時僅幾毫米)內工作,限制了內存容量。Majestic使用一種由微型銅纜構成的專有內存接口,有效距離可達一米,並配合定製內存聚合芯片,這些芯片物理上位於內存模塊旁邊,協調整個服務器的內存。該設計在提供大量內存池的同時,還能實現高達25.6TB/s的內存帶寬。
Prometheus服務器還配備了Ignite AI處理單元,每個服務器包含12個Ignite芯片。Ignite將數據中心級ARM應用核心與RISC-V向量和張量核心集成在單個芯片上,共享同一內存空間。ARM核心充當片上主機處理器來編排AI模型,RISC-V核心負責實際的LLM處理,無需在處理器之間切換。Majestic Labs尚未公佈Prometheus的具體計算性能指標。Rabii強調軟件的重要性,Prometheus將支持PyTorch、vLLM和OpenAI的Triton推理框架,無需修改代碼即可直接運行現有模型。
服務器本身採用開放式計算項目(Open Compute Project)兼容的規格,寬21英寸,深36英寸。一個機架最多可容納四台服務器,總功耗預計高達120千瓦,通過冷板液冷散熱。內存設計模塊化,購買時內存低於128TB的服務器可在日後升級。儘管配置強大,Majestic希望以價格取勝,因為使用DRAM而非HBM內存。定價尚未公佈,Prometheus預計於2027年發貨。Rabii聲稱:“客户的資本支出將根據工作負載降低10到50倍,功耗也類似地降低。”