藉助Ensemble AI的人才,壯大Cloudflare AI團隊
Cloudflare宣佈Ensemble AI的核心團隊成員加入,以加速其在AI基礎設施方面的工作,使開發者能夠更高效地大規模執行強大的AI模型。Ensemble AI專注於模型壓縮和高效推理,其技術如NdLinear可降低記憶體、計算和部署開銷,從而改善AI推理的經濟性。
今天,我們很高興地宣佈Ensemble AI的核心團隊成員加入Cloudflare,以加速我們在AI基礎設施方面的工作,讓開發者更容易高效地大規模執行強大的AI模型。
Ensemble AI成立於2023年,總部位於舊金山,過去幾年專注於AI領域最重要的挑戰之一:在不犧牲質量的前提下,使大型模型更快、更小、更經濟。該團隊開發了模型壓縮和高效推理的新方法,旨在減少大型語言模型和多模態架構的記憶體、計算和部署開銷。
隨著AI成為開發者構建應用的核心部分,推理的經濟性比以往任何時候都更加重要。模型越來越大,工作負載越來越動態,客戶期望AI無處不在:全球分佈、快速、可靠且經濟實惠。將Ensemble AI團隊引入Cloudflare將增強我們實現這一目標的能力。
整合Ensemble的專業知識
Ensemble AI團隊專注於在降低執行成本的同時保留現代AI模型的結構。他們沒有將模型效率僅僅視為量化或硬體問題,而是探索了新的模型構建模組,使神經網路在架構層面更加緊湊和高效。
這項工作的核心是NdLinear,它是Transformer模型中標準線性層的即插即用替代品,直接對多維啟用進行操作,而不是扁平化結構。這使得模型能夠保留有意義的軸(如頭、通道、空間維度或其他結構化表示),同時減少引數數量和計算量。Ensemble還開發了NdLinear-LoRA,一種高效的適配方法,旨在減少微調大型模型所需的可訓練引數。
這些方法補充了其他效率技術,包括量化和向量量化。它們共同指向一個未來,即開發者可以用更低的記憶體、計算和成本要求執行功能強大的AI模型。
使AI推理更高效
Cloudflare Workers AI為開發者提供全球網路上無伺服器GPU推理服務。隨著開發者構建更多AI原生應用,高效服務模型成為平臺的關鍵部分。
推理成本是擴充套件AI應用的最大障礙之一。模型大小、記憶體佔用、吞吐量和GPU利用率的每一次改進都能使AI對開發者更可及,對客戶更經濟。這一點在AI工作負載從簡單的文本生成擴充套件到代理、多模態模型、個性化、微調、檢索和強化學習時尤為重要。
我們正在深化對核心機器學習能力的投資,以使Workers AI更快、更靈活、更經濟。這建立在我們現有的模型效率改進工作之上,包括推理引擎Infire、張量壓縮技術Unweight,以及執行超大型語言模型的平臺。該團隊將專注於改善服務大型語言模型及其他先進AI架構的經濟性,重點在於模型效率、GPU利用率和可擴充套件部署。
為下一代AI工作負載構建
AI基礎設施正在進入新階段。開發者不僅需要訪問模型,還需要能夠可靠、經濟且靠近使用者執行模型的基礎設施。他們需要能夠嘗試不同的模型大小、微調方法和部署模式,而不被成本或操作複雜性阻礙。
Cloudflare在解決這一問題方面具有獨特優勢。我們的全球網路、開發者平臺和無伺服器架構為我們提供了將AI帶到應用執行之處的基礎。Workers AI機器學習工程團隊將幫助我們改進這一體驗之下的效率層。
透過將Cloudflare的全球基礎設施與Ensemble在模型壓縮和高效架構方面的研究相結合,我們可以繼續構建一個平臺,讓開發者以更低的成本、更好的效能和更少的操作開銷部署AI應用。
下一步
我們將繼續構建必要的基礎設施,使AI對全球開發者更高效、更可及、更有用。我們的目標很簡單:幫助開發者在全球範圍內執行強大的AI工作負載,同時改善整個Cloudflare平臺上的推理經濟性。如果您想加入我們的使命,請檢視我們的招聘頁面。