每瓦智慧:人工智慧時代的統一衡量標準
提出“每瓦智慧”(IPW)作為評估AI系統效率的指標,借鑑了計算領域每瓦效能的思路。研究表明,本地模型能回答88.7%的單輪查詢,混合推理可將能耗和成本降低60-80%。IPW還可用於衡量經濟價值和國家級競爭力,如“國內總智慧”(GDI)框架。
隨著人工智慧的快速發展,如何衡量AI系統的效率成為一個關鍵問題。一個研究團隊借鑑計算領域“每瓦效能”的概念,提出了“每瓦智慧”(Intelligence Per Watt,簡稱IPW)這一統一指標。IPW定義為每單位功耗所完成的任務準確率,旨在闡明從集中式AI向分散式智慧轉變的路徑。這一度量標準不僅關注原始效能,更強調在能量約束下的有效智慧輸出。
研究表明,截至2025年,引數不超過200億的本地語言模型能夠準確回答88.7%的單輪查詢,並且消費級加速器已能實現互動級延遲。從2023年到2025年,本地模型的IPW提升了5.3倍,其中模型進步貢獻了3.1倍,硬體進步貢獻了1.7倍。這意味著透過最佳化演算法和硬體,可以在不犧牲太多效能的情況下大幅降低功耗。
混合推理系統是另一項關鍵成果。透過將查詢智慧路由到本地裝置或雲端,這類系統能夠在保持輸出質量的同時,將能耗和計算成本降低60%至80%。例如,對於簡單的日常任務(如寫郵件、總結文件),直接呼叫本地模型即可高效完成,而無需每次都請求龐大的雲端模型。這種工作負載的重新分配能顯著減輕資料中心壓力。
從經濟價值來看,並非所有智慧都是平等的。研究團隊透過按GDP相關任務分佈對IPW進行加權,量化了AI系統每瓦功耗產生的經濟價值。這一視角揭示了當前系統在哪些領域創造價值、何處存在差距,以及效率提升如何轉化為各經濟部門的生產力。例如,一個擅長研究生級物理問題但不會寫郵件的模型,其經濟價值可能與一個恰好相反的模型截然不同。
在國家級競爭力層面,研究引入了“國內總智慧”(Gross Domestic Intelligence,簡稱GDI)的概念,定義為IPW與可用功率的乘積。這一框架揭示了中國和美國面臨的不同約束:中國因先進晶片出口管制而受限於計算能力,美國則受限於電網和資料中心瓶頸。IPW還凸顯了美國的一項不對稱優勢:數以億計已部署在家庭和辦公室的本地加速器。充分利用這些裝置,可以在不新建資料中心的情況下將AI有效容量提升2至4倍。
研究團隊還制定了一項協調的研究議程,涵蓋測量基準、經濟評估、國家競爭、模型與系統最佳化等多個方面。例如,他們正在開發基於GDP加權的評估方法、分解演算法與硬體貢獻的歸因工具,以及後訓練本地模型以利用前沿模型作為驗證工具的技術。此外,混合推理引擎Minions可將長文件推理的雲端成本降低5.7倍,同時保持97.9%的前沿模型準確率。
所有相關論文和開源工具已釋出於arXiv和GitHub,包括IPW效能分析工具、模型架構搜尋框架Archon(其設計的系統在指令跟隨、推理和編碼任務上平均超越OpenAI o1、GPT-4o、Claude 3.5 Sonnet等前沿模型15.1%),以及弱驗證器整合框架Weaver。這項研究由斯坦福大學等機構的學者主導,並得到Lambda Labs等行業合作伙伴的支援。
總之,每瓦智慧提出了一個統一的度量標準,有望引導AI系統走向更高效、更可持續的發展路徑。從模型設計到硬體架構,再到國家戰略,IPW都可能成為關鍵參考指標。