AI工廠:智能時代的新基礎設施
AI工廠是新型基礎設施,實時將電能轉化為智能的生成單元——令牌。隨着代理型AI的擴展,每瓦性能與每令牌成本成為關鍵經濟指標。本文深入探討AI工廠的工作原理、架構優化以及NVIDIA的最新硬件如何提升效率。
文章情報
要點
- AI工廠將電能轉化為令牌,是智能時代的“發電廠”。
- 代理型AI使推理工作負載更深更復雜,要求實時協調。
- NVIDIA Blackwell Ultra和Vera Rubin平台顯著提升每瓦性能,降低每令牌成本。
- 全棧AI工廠從芯片到軟件協同設計,支持企業級部署。
為甚麼重要
這條新聞值得關注,因為AI工廠將電能轉化為令牌,是智能時代的“發電廠”。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
AI工廠是一種新型基礎設施,專門用於實時生產智能。在工業時代,發電廠將能源轉化為電力;在AI時代,AI工廠將能源轉化為令牌——這是推理模型、智能體和智能系統的生產單位。其經濟性由令牌產量定義:每秒令牌數、每瓦令牌數、每令牌成本、利用率和運行時間。在這一模式下,每瓦性能直接轉化為收入,每令牌成本影響每個AI工廠的經濟效益。
AI不再僅僅是軟件,它已成為關鍵基礎設施。AI工廠同步大規模計算資源,同時服務數十億次請求。它們由軟件編排,包含持續運行的自主多智能體系統,全天候生產智能。智能體系統利用最佳性能的AI模型(包括NVIDIA Nemotron)進行推理和規劃,開放模型可針對企業特定需求進行定製、優化並安全部署,所有這些都可在AI工廠中完成。
AI工廠的架構專為新型工作負載設計:始終在線的推理不僅響應提示,還能由自主智能體進行推理、規劃、搜索、使用工具、檢索數據、編寫代碼並採取行動。這些多智能體系統使AI工作負載更長、更深、更消耗計算資源,要求基礎設施保持高效運行。性能取決於讓整個工作流程順暢移動,確保智能持續生產以應對下一步行動和決策。
自主智能體依賴於加速計算、快速內存、用於上下文的存儲、用於協調的網絡、用於編排的軟件以及用於執行的CPU。工作負載在整個堆棧中移動,每一步通常都有嚴格的延遲要求。AI工廠包含全棧系統,旨在保持這些工作流連續運行,以高效大規模生產令牌所需的吞吐量、響應能力和利用率。
硬件、網絡、內存、存儲和軟件經過協同設計,每一層持續優化以提高利用率、降低每令牌成本並增加產出。它們在響應性和吞吐量之間取得平衡,以最大化生產。隨着AI工作流變得更長、更具交互性,工廠必須實時運行。這意味着路由請求、管理內存、協調服務、平衡延遲和吞吐量,並保持全棧高利用率。軟件層至關重要,因為高效運營工廠決定了智能產量和價值創造。
在AI計算中,每瓦性能已成為AI工廠競爭力的終極衡量標準。數據中心曾存儲文件,現在AI工廠生產令牌。對於AI生產者,輸出直接影響收入;對於企業,每令牌成本決定了能否盈利地擴展AI。SemiAnalysis的InferenceX基準測試量化了這種轉變:NVIDIA Blackwell Ultra GPU提供最低的每令牌成本,使AI工廠從相同功耗中產出更多智能,單位成本更低。每瓦更多令牌意味着更高的基礎設施成本效率;更低的每令牌成本改善了大規模推理的經濟性。
NVIDIA GB300 NVL72系統每兆瓦產生的令牌數比上一代多50倍,導致每令牌成本比NVIDIA Hopper平台低35倍。NVIDIA Dynamo框架有助於編排長上下文推理和海量推理吞吐量,保持利用率在高水平。NVIDIA Vera Rubin平台進一步延長了曲線,隨着推理和代理型AI的擴展,Vera Rubin系統通過LPX將每瓦性能提升35倍,並通過更深的全棧優化降低令牌成本。
從GPU起步,NVIDIA已擴展到全棧AI工廠,包括加速計算、高速互連、液冷系統、推理軟件、自主智能體、參考架構以及構建和運營它們所需的生態系統。NVIDIA與Cisco、Dell、HPE、Lenovo和Supermicro等全球系統合作伙伴緊密合作,將AI基礎設施引入企業數據中心。還依賴於精心挑選的AI軟件合作伙伴生態系統,為每個企業的用例構建AI解決方案。這些AI工廠可部署於多種用例,從代理型AI工作負載到物理AI和機器人技術。各行各業的組織——從金融服務、生命科學到製造業和公共部門——都將需要構建或租用AI工廠。
NVIDIA自身運行企業AI工廠以加速公司發展,數百個自主AI智能體協助工程、軟件和運營團隊。這是一個實際證明:AI工廠可以改變公司構建、設計和運營的方式,提高企業內部生產力,將AI從偶爾使用的工具轉變為融入日常工作的能力。AI工廠可以從小規模開始支持一個業務單元或工作負載,也可以從零構建以支持大規模高性能AI推理和訓練。NVIDIA DSX參考設計統一了設計、仿真、運營和生態系統技術,以建立吉瓦級AI工廠,實現每兆瓦最低令牌成本。
構建這些吉瓦級AI工廠需要更多優化計算,還需要一個共享數字環境,在其中設施設計、硬件系統、電力、冷卻和運營可以在建設前共同建模,並在部署後持續改進。NVIDIA Omniverse DSX藍圖通過數字孿生支持這一工作流,連接設施、硬件和軟件,利用Omniverse、OpenUSD和SimReady資產幫助合作伙伴驗證設計並優化AI工廠生命週期內的運營。
全棧方法幫助組織從每個系統中提取更多智能,將AI基礎設施轉變為自主、始終在線的推理、行動和洞察引擎。上一次工業革命將能源轉化為工作,這一次將能源轉化為智能。AI工廠是這個新時代的基礎設施,旨在推動下一波經濟增長。