AI工厂:智能时代的新基础设施
AI工厂是新型基础设施,实时将电能转化为智能的生成单元——令牌。随着代理型AI的扩展,每瓦性能与每令牌成本成为关键经济指标。本文深入探讨AI工厂的工作原理、架构优化以及NVIDIA的最新硬件如何提升效率。
文章情报
要点
- AI工厂将电能转化为令牌,是智能时代的“发电厂”。
- 代理型AI使推理工作负载更深更复杂,要求实时协调。
- NVIDIA Blackwell Ultra和Vera Rubin平台显著提升每瓦性能,降低每令牌成本。
- 全栈AI工厂从芯片到软件协同设计,支持企业级部署。
为什么重要
这条新闻值得关注,因为AI工厂将电能转化为令牌,是智能时代的“发电厂”。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
AI工厂是一种新型基础设施,专门用于实时生产智能。在工业时代,发电厂将能源转化为电力;在AI时代,AI工厂将能源转化为令牌——这是推理模型、智能体和智能系统的生产单位。其经济性由令牌产量定义:每秒令牌数、每瓦令牌数、每令牌成本、利用率和运行时间。在这一模式下,每瓦性能直接转化为收入,每令牌成本影响每个AI工厂的经济效益。
AI不再仅仅是软件,它已成为关键基础设施。AI工厂同步大规模计算资源,同时服务数十亿次请求。它们由软件编排,包含持续运行的自主多智能体系统,全天候生产智能。智能体系统利用最佳性能的AI模型(包括NVIDIA Nemotron)进行推理和规划,开放模型可针对企业特定需求进行定制、优化并安全部署,所有这些都可在AI工厂中完成。
AI工厂的架构专为新型工作负载设计:始终在线的推理不仅响应提示,还能由自主智能体进行推理、规划、搜索、使用工具、检索数据、编写代码并采取行动。这些多智能体系统使AI工作负载更长、更深、更消耗计算资源,要求基础设施保持高效运行。性能取决于让整个工作流程顺畅移动,确保智能持续生产以应对下一步行动和决策。
自主智能体依赖于加速计算、快速内存、用于上下文的存储、用于协调的网络、用于编排的软件以及用于执行的CPU。工作负载在整个堆栈中移动,每一步通常都有严格的延迟要求。AI工厂包含全栈系统,旨在保持这些工作流连续运行,以高效大规模生产令牌所需的吞吐量、响应能力和利用率。
硬件、网络、内存、存储和软件经过协同设计,每一层持续优化以提高利用率、降低每令牌成本并增加产出。它们在响应性和吞吐量之间取得平衡,以最大化生产。随着AI工作流变得更长、更具交互性,工厂必须实时运行。这意味着路由请求、管理内存、协调服务、平衡延迟和吞吐量,并保持全栈高利用率。软件层至关重要,因为高效运营工厂决定了智能产量和价值创造。
在AI计算中,每瓦性能已成为AI工厂竞争力的终极衡量标准。数据中心曾存储文件,现在AI工厂生产令牌。对于AI生产者,输出直接影响收入;对于企业,每令牌成本决定了能否盈利地扩展AI。SemiAnalysis的InferenceX基准测试量化了这种转变:NVIDIA Blackwell Ultra GPU提供最低的每令牌成本,使AI工厂从相同功耗中产出更多智能,单位成本更低。每瓦更多令牌意味着更高的基础设施成本效率;更低的每令牌成本改善了大规模推理的经济性。
NVIDIA GB300 NVL72系统每兆瓦产生的令牌数比上一代多50倍,导致每令牌成本比NVIDIA Hopper平台低35倍。NVIDIA Dynamo框架有助于编排长上下文推理和海量推理吞吐量,保持利用率在高水平。NVIDIA Vera Rubin平台进一步延长了曲线,随着推理和代理型AI的扩展,Vera Rubin系统通过LPX将每瓦性能提升35倍,并通过更深的全栈优化降低令牌成本。
从GPU起步,NVIDIA已扩展到全栈AI工厂,包括加速计算、高速互连、液冷系统、推理软件、自主智能体、参考架构以及构建和运营它们所需的生态系统。NVIDIA与Cisco、Dell、HPE、Lenovo和Supermicro等全球系统合作伙伴紧密合作,将AI基础设施引入企业数据中心。还依赖于精心挑选的AI软件合作伙伴生态系统,为每个企业的用例构建AI解决方案。这些AI工厂可部署于多种用例,从代理型AI工作负载到物理AI和机器人技术。各行各业的组织——从金融服务、生命科学到制造业和公共部门——都将需要构建或租用AI工厂。
NVIDIA自身运行企业AI工厂以加速公司发展,数百个自主AI智能体协助工程、软件和运营团队。这是一个实际证明:AI工厂可以改变公司构建、设计和运营的方式,提高企业内部生产力,将AI从偶尔使用的工具转变为融入日常工作的能力。AI工厂可以从小规模开始支持一个业务单元或工作负载,也可以从零构建以支持大规模高性能AI推理和训练。NVIDIA DSX参考设计统一了设计、仿真、运营和生态系统技术,以建立吉瓦级AI工厂,实现每兆瓦最低令牌成本。
构建这些吉瓦级AI工厂需要更多优化计算,还需要一个共享数字环境,在其中设施设计、硬件系统、电力、冷却和运营可以在建设前共同建模,并在部署后持续改进。NVIDIA Omniverse DSX蓝图通过数字孪生支持这一工作流,连接设施、硬件和软件,利用Omniverse、OpenUSD和SimReady资产帮助合作伙伴验证设计并优化AI工厂生命周期内的运营。
全栈方法帮助组织从每个系统中提取更多智能,将AI基础设施转变为自主、始终在线的推理、行动和洞察引擎。上一次工业革命将能源转化为工作,这一次将能源转化为智能。AI工厂是这个新时代的基础设施,旨在推动下一波经济增长。