新型服务器有望突破AI的“内存墙”
AI硬件初创公司Majestic Labs正在开发一种名为Prometheus的新型AI服务器,配备高达128TB的内存,是Nvidia DGX B300服务器的60倍以上。该服务器采用DRAM中心架构,使用专有微型铜缆内存接口和自定义内存聚合芯片,提供高达25.6TB/s的带宽。它包含12个Ignite AI处理器,结合ARM和RISC-V核心,支持PyTorch、vLLM和Triton框架,无需修改代码。预计2027年发货,声称可将资本支出和功耗降低10至50倍。
AI硬件初创公司Majestic Labs正在直接且全面地解决大型语言模型(LLM)面临的“内存墙”问题。该公司正在开发一种名为Prometheus的新型AI服务器,其内存容量高达128TB,是Nvidia DGX B300服务器(一款尖端AI处理机架)的60倍以上。Majestic Labs联合创始人兼总裁Sha Rabii认为,这种内存的急剧增加将为公司带来优势。他承认“Nvidia在创建可扩展系统方面做得非常出色”,但认为随着模型增长,其系统变得不那么经济,“最终过度配置计算资源,而内存却严重不足”。
为了克服“内存墙”,Majestic Labs采用了一种与竞争对手截然不同的架构。Nvidia当前的服务器使用快速的高带宽内存(HBM)来读取LLM模型权重,并配有一个较大但较慢的动态随机存取内存(DRAM)池来处理开销。Majestic则完全转向DRAM(特别是LPDDR6),采用统一架构。Rabii指出,大多数内存接口设计在极短物理距离(有时仅几毫米)内工作,限制了内存容量。Majestic使用一种由微型铜缆构成的专有内存接口,有效距离可达一米,并配合定制内存聚合芯片,这些芯片物理上位于内存模块旁边,协调整个服务器的内存。该设计在提供大量内存池的同时,还能实现高达25.6TB/s的内存带宽。
Prometheus服务器还配备了Ignite AI处理单元,每个服务器包含12个Ignite芯片。Ignite将数据中心级ARM应用核心与RISC-V向量和张量核心集成在单个芯片上,共享同一内存空间。ARM核心充当片上主机处理器来编排AI模型,RISC-V核心负责实际的LLM处理,无需在处理器之间切换。Majestic Labs尚未公布Prometheus的具体计算性能指标。Rabii强调软件的重要性,Prometheus将支持PyTorch、vLLM和OpenAI的Triton推理框架,无需修改代码即可直接运行现有模型。
服务器本身采用开放式计算项目(Open Compute Project)兼容的规格,宽21英寸,深36英寸。一个机架最多可容纳四台服务器,总功耗预计高达120千瓦,通过冷板液冷散热。内存设计模块化,购买时内存低于128TB的服务器可在日后升级。尽管配置强大,Majestic希望以价格取胜,因为使用DRAM而非HBM内存。定价尚未公布,Prometheus预计于2027年发货。Rabii声称:“客户的资本支出将根据工作负载降低10到50倍,功耗也类似地降低。”