2026-06-15站内改写2 分鐘閱讀更新: 2026-06-15

藉助Ensemble AI的人才，壯大Cloudflare AI團隊

Cloudflare宣佈Ensemble AI的核心團隊成員加入，以加速其在AI基礎設施方面的工作，使開發者能夠更高效地大規模執行強大的AI模型。Ensemble AI專注於模型壓縮和高效推理，其技術如NdLinear可降低記憶體、計算和部署開銷，從而改善AI推理的經濟性。

來源Cloudflare AI Blog作者: Alex Reneau

今天，我們很高興地宣佈Ensemble AI的核心團隊成員加入Cloudflare，以加速我們在AI基礎設施方面的工作，讓開發者更容易高效地大規模執行強大的AI模型。

Ensemble AI成立於2023年，總部位於舊金山，過去幾年專注於AI領域最重要的挑戰之一：在不犧牲質量的前提下，使大型模型更快、更小、更經濟。該團隊開發了模型壓縮和高效推理的新方法，旨在減少大型語言模型和多模態架構的記憶體、計算和部署開銷。

隨著AI成為開發者構建應用的核心部分，推理的經濟性比以往任何時候都更加重要。模型越來越大，工作負載越來越動態，客戶期望AI無處不在：全球分佈、快速、可靠且經濟實惠。將Ensemble AI團隊引入Cloudflare將增強我們實現這一目標的能力。

整合Ensemble的專業知識

Ensemble AI團隊專注於在降低執行成本的同時保留現代AI模型的結構。他們沒有將模型效率僅僅視為量化或硬體問題，而是探索了新的模型構建模組，使神經網路在架構層面更加緊湊和高效。

這項工作的核心是NdLinear，它是Transformer模型中標準線性層的即插即用替代品，直接對多維啟用進行操作，而不是扁平化結構。這使得模型能夠保留有意義的軸（如頭、通道、空間維度或其他結構化表示），同時減少引數數量和計算量。Ensemble還開發了NdLinear-LoRA，一種高效的適配方法，旨在減少微調大型模型所需的可訓練引數。

這些方法補充了其他效率技術，包括量化和向量量化。它們共同指向一個未來，即開發者可以用更低的記憶體、計算和成本要求執行功能強大的AI模型。

使AI推理更高效

Cloudflare Workers AI為開發者提供全球網路上無伺服器GPU推理服務。隨著開發者構建更多AI原生應用，高效服務模型成為平臺的關鍵部分。

推理成本是擴充套件AI應用的最大障礙之一。模型大小、記憶體佔用、吞吐量和GPU利用率的每一次改進都能使AI對開發者更可及，對客戶更經濟。這一點在AI工作負載從簡單的文本生成擴充套件到代理、多模態模型、個性化、微調、檢索和強化學習時尤為重要。

我們正在深化對核心機器學習能力的投資，以使Workers AI更快、更靈活、更經濟。這建立在我們現有的模型效率改進工作之上，包括推理引擎Infire、張量壓縮技術Unweight，以及執行超大型語言模型的平臺。該團隊將專注於改善服務大型語言模型及其他先進AI架構的經濟性，重點在於模型效率、GPU利用率和可擴充套件部署。

為下一代AI工作負載構建

AI基礎設施正在進入新階段。開發者不僅需要訪問模型，還需要能夠可靠、經濟且靠近使用者執行模型的基礎設施。他們需要能夠嘗試不同的模型大小、微調方法和部署模式，而不被成本或操作複雜性阻礙。

Cloudflare在解決這一問題方面具有獨特優勢。我們的全球網路、開發者平臺和無伺服器架構為我們提供了將AI帶到應用執行之處的基礎。Workers AI機器學習工程團隊將幫助我們改進這一體驗之下的效率層。

透過將Cloudflare的全球基礎設施與Ensemble在模型壓縮和高效架構方面的研究相結合，我們可以繼續構建一個平臺，讓開發者以更低的成本、更好的效能和更少的操作開銷部署AI應用。

下一步

我們將繼續構建必要的基礎設施，使AI對全球開發者更高效、更可及、更有用。我們的目標很簡單：幫助開發者在全球範圍內執行強大的AI工作負載，同時改善整個Cloudflare平臺上的推理經濟性。如果您想加入我們的使命，請檢視我們的招聘頁面。