每瓦智能:人工智能時代的統一衡量標準
提出“每瓦智能”(IPW)作為評估AI系統效率的指標,借鑑了計算領域每瓦性能的思路。研究表明,本地模型能回答88.7%的單輪查詢,混合推理可將能耗和成本降低60-80%。IPW還可用於衡量經濟價值和國家級競爭力,如“國內總智能”(GDI)框架。
隨着人工智能的快速發展,如何衡量AI系統的效率成為一個關鍵問題。一個研究團隊借鑑計算領域“每瓦性能”的概念,提出了“每瓦智能”(Intelligence Per Watt,簡稱IPW)這一統一指標。IPW定義為每單位功耗所完成的任務準確率,旨在闡明從集中式AI向分佈式智能轉變的路徑。這一度量標準不僅關注原始性能,更強調在能量約束下的有效智能輸出。
研究表明,截至2025年,參數不超過200億的本地語言模型能夠準確回答88.7%的單輪查詢,並且消費級加速器已能實現交互級延遲。從2023年到2025年,本地模型的IPW提升了5.3倍,其中模型進步貢獻了3.1倍,硬件進步貢獻了1.7倍。這意味着通過優化算法和硬件,可以在不犧牲太多性能的情況下大幅降低功耗。
混合推理系統是另一項關鍵成果。通過將查詢智能路由到本地設備或雲端,這類系統能夠在保持輸出質量的同時,將能耗和計算成本降低60%至80%。例如,對於簡單的日常任務(如寫郵件、總結文檔),直接調用本地模型即可高效完成,而無需每次都請求龐大的雲端模型。這種工作負載的重新分配能顯著減輕數據中心壓力。
從經濟價值來看,並非所有智能都是平等的。研究團隊通過按GDP相關任務分佈對IPW進行加權,量化了AI系統每瓦功耗產生的經濟價值。這一視角揭示了當前系統在哪些領域創造價值、何處存在差距,以及效率提升如何轉化為各經濟部門的生產力。例如,一個擅長研究生級物理問題但不會寫郵件的模型,其經濟價值可能與一個恰好相反的模型截然不同。
在國家級競爭力層面,研究引入了“國內總智能”(Gross Domestic Intelligence,簡稱GDI)的概念,定義為IPW與可用功率的乘積。這一框架揭示了中國和美國面臨的不同約束:中國因先進芯片出口管制而受限於計算能力,美國則受限於電網和數據中心瓶頸。IPW還凸顯了美國的一項不對稱優勢:數以億計已部署在家庭和辦公室的本地加速器。充分利用這些設備,可以在不新建數據中心的情況下將AI有效容量提升2至4倍。
研究團隊還制定了一項協調的研究議程,涵蓋測量基準、經濟評估、國家競爭、模型與系統優化等多個方面。例如,他們正在開發基於GDP加權的評估方法、分解算法與硬件貢獻的歸因工具,以及後訓練本地模型以利用前沿模型作為驗證工具的技術。此外,混合推理引擎Minions可將長文檔推理的雲端成本降低5.7倍,同時保持97.9%的前沿模型準確率。
所有相關論文和開源工具已發佈於arXiv和GitHub,包括IPW性能分析工具、模型架構搜索框架Archon(其設計的系統在指令跟隨、推理和編碼任務上平均超越OpenAI o1、GPT-4o、Claude 3.5 Sonnet等前沿模型15.1%),以及弱驗證器集成框架Weaver。這項研究由斯坦福大學等機構的學者主導,並得到Lambda Labs等行業合作伙伴的支持。
總之,每瓦智能提出了一個統一的度量標準,有望引導AI系統走向更高效、更可持續的發展路徑。從模型設計到硬件架構,再到國家戰略,IPW都可能成為關鍵參考指標。