2026-06-15站内改写2 分钟阅读更新: 2026-06-15

借助Ensemble AI的人才，壮大Cloudflare AI团队

Cloudflare宣布Ensemble AI的核心团队成员加入，以加速其在AI基础设施方面的工作，使开发者能够更高效地大规模运行强大的AI模型。Ensemble AI专注于模型压缩和高效推理，其技术如NdLinear可降低内存、计算和部署开销，从而改善AI推理的经济性。

来源Cloudflare AI Blog作者: Alex Reneau

今天，我们很高兴地宣布Ensemble AI的核心团队成员加入Cloudflare，以加速我们在AI基础设施方面的工作，让开发者更容易高效地大规模运行强大的AI模型。

Ensemble AI成立于2023年，总部位于旧金山，过去几年专注于AI领域最重要的挑战之一：在不牺牲质量的前提下，使大型模型更快、更小、更经济。该团队开发了模型压缩和高效推理的新方法，旨在减少大型语言模型和多模态架构的内存、计算和部署开销。

随着AI成为开发者构建应用的核心部分，推理的经济性比以往任何时候都更加重要。模型越来越大，工作负载越来越动态，客户期望AI无处不在：全球分布、快速、可靠且经济实惠。将Ensemble AI团队引入Cloudflare将增强我们实现这一目标的能力。

整合Ensemble的专业知识

Ensemble AI团队专注于在降低运行成本的同时保留现代AI模型的结构。他们没有将模型效率仅仅视为量化或硬件问题，而是探索了新的模型构建模块，使神经网络在架构层面更加紧凑和高效。

这项工作的核心是NdLinear，它是Transformer模型中标准线性层的即插即用替代品，直接对多维激活进行操作，而不是扁平化结构。这使得模型能够保留有意义的轴（如头、通道、空间维度或其他结构化表示），同时减少参数数量和计算量。Ensemble还开发了NdLinear-LoRA，一种高效的适配方法，旨在减少微调大型模型所需的可训练参数。

这些方法补充了其他效率技术，包括量化和向量量化。它们共同指向一个未来，即开发者可以用更低的内存、计算和成本要求运行功能强大的AI模型。

使AI推理更高效

Cloudflare Workers AI为开发者提供全球网络上无服务器GPU推理服务。随着开发者构建更多AI原生应用，高效服务模型成为平台的关键部分。

推理成本是扩展AI应用的最大障碍之一。模型大小、内存占用、吞吐量和GPU利用率的每一次改进都能使AI对开发者更可及，对客户更经济。这一点在AI工作负载从简单的文本生成扩展到代理、多模态模型、个性化、微调、检索和强化学习时尤为重要。

我们正在深化对核心机器学习能力的投资，以使Workers AI更快、更灵活、更经济。这建立在我们现有的模型效率改进工作之上，包括推理引擎Infire、张量压缩技术Unweight，以及运行超大型语言模型的平台。该团队将专注于改善服务大型语言模型及其他先进AI架构的经济性，重点在于模型效率、GPU利用率和可扩展部署。

为下一代AI工作负载构建

AI基础设施正在进入新阶段。开发者不仅需要访问模型，还需要能够可靠、经济且靠近用户运行模型的基础设施。他们需要能够尝试不同的模型大小、微调方法和部署模式，而不被成本或操作复杂性阻碍。

Cloudflare在解决这一问题方面具有独特优势。我们的全球网络、开发者平台和无服务器架构为我们提供了将AI带到应用运行之处的基础。Workers AI机器学习工程团队将帮助我们改进这一体验之下的效率层。

通过将Cloudflare的全球基础设施与Ensemble在模型压缩和高效架构方面的研究相结合，我们可以继续构建一个平台，让开发者以更低的成本、更好的性能和更少的操作开销部署AI应用。

下一步

我们将继续构建必要的基础设施，使AI对全球开发者更高效、更可及、更有用。我们的目标很简单：帮助开发者在全球范围内运行强大的AI工作负载，同时改善整个Cloudflare平台上的推理经济性。如果您想加入我们的使命，请查看我们的招聘页面。