2026-05-25 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

每個成功目標的能量：面向智慧體AI系統的目標級能量核算

新研究提出A-LEMS框架，以每個成功目標的能量（EpG）而非每次推理來衡量AI能耗。實驗表明，智慧體工作流平均能耗是線性基線的4.33倍，編排結構是主要驅動因素，但在工具增強任務中可能更節能。

來源arXiv AI作者: Deepak Panigrahy, Aakash Tyagi

文章情報

工程師進階

要點

當前AI能耗基準測量每次推理的能量，對於涉及多步編排、工具呼叫和重試的智慧體系統並不適用。
A-LEMS引入每個成功目標的能量（EpG）和編排開銷指數（OOI），以準確衡量智慧體工作流的能耗成本。
實驗顯示智慧體工作流每個目標的能耗比線性基線高4.33倍，但對於工具增強的任務，智慧體執行可能比線性執行更節能。
該研究為智慧體AI的能效基準測試提供了新的測量基礎，強調編排結構是能耗的主要決定因素。

為什麼重要

這條新聞值得關注，因為當前AI能耗基準測量每次推理的能量，對於涉及多步編排、工具呼叫和重試的智慧體系統並不適用。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

人工智慧能效基準測試長期以來一直以每次推理為粒度來衡量能耗，但對於智慧體AI系統而言，這種指標存在根本性缺陷。智慧體系統在執行單一使用者目標時，可能會觸發多步編排、工具呼叫、重試以及故障恢復迴圈，此時推理次數只是一個實現細節，而非任務屬性。基於推理級的歸一化無法正確反映目標完成的真實能耗成本。

針對這一問題，最新研究提出了A-LEMS（Agentic LLM Energy Measurement System）框架，將AI能耗核算單位從“每次推理的能量”重新定義為“每個成功目標的能量”（Energy per Successful Goal, EpG）。EpG聚合了所有執行嘗試（包括失敗和重試）的總工作流能量，並按成功完成的目標進行歸一化。A-LEMS透過時間邊界模型、五層觀測管道（將RAPL訊號對映到工作流級能量）以及可重複性協議（將每次測量繫結到硬體和執行時配置）來形式化能量歸因。在EpG的基礎上，研究還定義了編排開銷指數（Orchestration Overhead Index, OOI），用於隔離在相同任務標準下編排相對於線性執行的額外能量成本。

研究團隊在五個推理任務族（如數學推理、常識推理等）和三個工具增強任務族（如資料庫查詢、API呼叫等）上進行了實驗。結果顯示，智慧體工作流每個成功目標的平均能耗為888.1焦耳，而線性基線僅為205.3焦耳，前者是後者的4.33倍。這種開銷主要由編排結構驅動，而非推理計算本身。值得注意的是，在工具增強任務中，OOI反轉至1.0以下，意味著智慧體執行反而比線性執行更節能。這證實了該指標捕獲的是編排結構的影響，而非固定的向上偏差。

這些發現表明，每次推理的能量度量對於智慧體AI是不充分的。EpG和OOI為精確基準測試提供了測量基礎，其中編排結構是能耗的主要決定因素。該框架為未來智慧體系統的能效最佳化和標準化評估提供了重要工具，有助於推動AI系統在能耗方面的透明度和可持續性發展。