借助Ensemble AI的人才,壮大Cloudflare AI团队
Cloudflare宣布Ensemble AI的核心团队成员加入,以加速其在AI基础设施方面的工作,使开发者能够更高效地大规模运行强大的AI模型。Ensemble AI专注于模型压缩和高效推理,其技术如NdLinear可降低内存、计算和部署开销,从而改善AI推理的经济性。
今天,我们很高兴地宣布Ensemble AI的核心团队成员加入Cloudflare,以加速我们在AI基础设施方面的工作,让开发者更容易高效地大规模运行强大的AI模型。
Ensemble AI成立于2023年,总部位于旧金山,过去几年专注于AI领域最重要的挑战之一:在不牺牲质量的前提下,使大型模型更快、更小、更经济。该团队开发了模型压缩和高效推理的新方法,旨在减少大型语言模型和多模态架构的内存、计算和部署开销。
随着AI成为开发者构建应用的核心部分,推理的经济性比以往任何时候都更加重要。模型越来越大,工作负载越来越动态,客户期望AI无处不在:全球分布、快速、可靠且经济实惠。将Ensemble AI团队引入Cloudflare将增强我们实现这一目标的能力。
整合Ensemble的专业知识
Ensemble AI团队专注于在降低运行成本的同时保留现代AI模型的结构。他们没有将模型效率仅仅视为量化或硬件问题,而是探索了新的模型构建模块,使神经网络在架构层面更加紧凑和高效。
这项工作的核心是NdLinear,它是Transformer模型中标准线性层的即插即用替代品,直接对多维激活进行操作,而不是扁平化结构。这使得模型能够保留有意义的轴(如头、通道、空间维度或其他结构化表示),同时减少参数数量和计算量。Ensemble还开发了NdLinear-LoRA,一种高效的适配方法,旨在减少微调大型模型所需的可训练参数。
这些方法补充了其他效率技术,包括量化和向量量化。它们共同指向一个未来,即开发者可以用更低的内存、计算和成本要求运行功能强大的AI模型。
使AI推理更高效
Cloudflare Workers AI为开发者提供全球网络上无服务器GPU推理服务。随着开发者构建更多AI原生应用,高效服务模型成为平台的关键部分。
推理成本是扩展AI应用的最大障碍之一。模型大小、内存占用、吞吐量和GPU利用率的每一次改进都能使AI对开发者更可及,对客户更经济。这一点在AI工作负载从简单的文本生成扩展到代理、多模态模型、个性化、微调、检索和强化学习时尤为重要。
我们正在深化对核心机器学习能力的投资,以使Workers AI更快、更灵活、更经济。这建立在我们现有的模型效率改进工作之上,包括推理引擎Infire、张量压缩技术Unweight,以及运行超大型语言模型的平台。该团队将专注于改善服务大型语言模型及其他先进AI架构的经济性,重点在于模型效率、GPU利用率和可扩展部署。
为下一代AI工作负载构建
AI基础设施正在进入新阶段。开发者不仅需要访问模型,还需要能够可靠、经济且靠近用户运行模型的基础设施。他们需要能够尝试不同的模型大小、微调方法和部署模式,而不被成本或操作复杂性阻碍。
Cloudflare在解决这一问题方面具有独特优势。我们的全球网络、开发者平台和无服务器架构为我们提供了将AI带到应用运行之处的基础。Workers AI机器学习工程团队将帮助我们改进这一体验之下的效率层。
通过将Cloudflare的全球基础设施与Ensemble在模型压缩和高效架构方面的研究相结合,我们可以继续构建一个平台,让开发者以更低的成本、更好的性能和更少的操作开销部署AI应用。
下一步
我们将继续构建必要的基础设施,使AI对全球开发者更高效、更可及、更有用。我们的目标很简单:帮助开发者在全球范围内运行强大的AI工作负载,同时改善整个Cloudflare平台上的推理经济性。如果您想加入我们的使命,请查看我们的招聘页面。