每瓦智能:人工智能时代的统一衡量标准
提出“每瓦智能”(IPW)作为评估AI系统效率的指标,借鉴了计算领域每瓦性能的思路。研究表明,本地模型能回答88.7%的单轮查询,混合推理可将能耗和成本降低60-80%。IPW还可用于衡量经济价值和国家级竞争力,如“国内总智能”(GDI)框架。
随着人工智能的快速发展,如何衡量AI系统的效率成为一个关键问题。一个研究团队借鉴计算领域“每瓦性能”的概念,提出了“每瓦智能”(Intelligence Per Watt,简称IPW)这一统一指标。IPW定义为每单位功耗所完成的任务准确率,旨在阐明从集中式AI向分布式智能转变的路径。这一度量标准不仅关注原始性能,更强调在能量约束下的有效智能输出。
研究表明,截至2025年,参数不超过200亿的本地语言模型能够准确回答88.7%的单轮查询,并且消费级加速器已能实现交互级延迟。从2023年到2025年,本地模型的IPW提升了5.3倍,其中模型进步贡献了3.1倍,硬件进步贡献了1.7倍。这意味着通过优化算法和硬件,可以在不牺牲太多性能的情况下大幅降低功耗。
混合推理系统是另一项关键成果。通过将查询智能路由到本地设备或云端,这类系统能够在保持输出质量的同时,将能耗和计算成本降低60%至80%。例如,对于简单的日常任务(如写邮件、总结文档),直接调用本地模型即可高效完成,而无需每次都请求庞大的云端模型。这种工作负载的重新分配能显著减轻数据中心压力。
从经济价值来看,并非所有智能都是平等的。研究团队通过按GDP相关任务分布对IPW进行加权,量化了AI系统每瓦功耗产生的经济价值。这一视角揭示了当前系统在哪些领域创造价值、何处存在差距,以及效率提升如何转化为各经济部门的生产力。例如,一个擅长研究生级物理问题但不会写邮件的模型,其经济价值可能与一个恰好相反的模型截然不同。
在国家级竞争力层面,研究引入了“国内总智能”(Gross Domestic Intelligence,简称GDI)的概念,定义为IPW与可用功率的乘积。这一框架揭示了中国和美国面临的不同约束:中国因先进芯片出口管制而受限于计算能力,美国则受限于电网和数据中心瓶颈。IPW还凸显了美国的一项不对称优势:数以亿计已部署在家庭和办公室的本地加速器。充分利用这些设备,可以在不新建数据中心的情况下将AI有效容量提升2至4倍。
研究团队还制定了一项协调的研究议程,涵盖测量基准、经济评估、国家竞争、模型与系统优化等多个方面。例如,他们正在开发基于GDP加权的评估方法、分解算法与硬件贡献的归因工具,以及后训练本地模型以利用前沿模型作为验证工具的技术。此外,混合推理引擎Minions可将长文档推理的云端成本降低5.7倍,同时保持97.9%的前沿模型准确率。
所有相关论文和开源工具已发布于arXiv和GitHub,包括IPW性能分析工具、模型架构搜索框架Archon(其设计的系统在指令跟随、推理和编码任务上平均超越OpenAI o1、GPT-4o、Claude 3.5 Sonnet等前沿模型15.1%),以及弱验证器集成框架Weaver。这项研究由斯坦福大学等机构的学者主导,并得到Lambda Labs等行业合作伙伴的支持。
总之,每瓦智能提出了一个统一的度量标准,有望引导AI系统走向更高效、更可持续的发展路径。从模型设计到硬件架构,再到国家战略,IPW都可能成为关键参考指标。