AI News HubLIVE
站内改写

每个成功目标的能量:面向智能体AI系统的目标级能量核算

新研究提出A-LEMS框架,以每个成功目标的能量(EpG)而非每次推理来衡量AI能耗。实验表明,智能体工作流平均能耗是线性基线的4.33倍,编排结构是主要驱动因素,但在工具增强任务中可能更节能。

文章情报

工程师进阶

要点

  • 当前AI能耗基准测量每次推理的能量,对于涉及多步编排、工具调用和重试的智能体系统并不适用。
  • A-LEMS引入每个成功目标的能量(EpG)和编排开销指数(OOI),以准确衡量智能体工作流的能耗成本。
  • 实验显示智能体工作流每个目标的能耗比线性基线高4.33倍,但对于工具增强的任务,智能体执行可能比线性执行更节能。
  • 该研究为智能体AI的能效基准测试提供了新的测量基础,强调编排结构是能耗的主要决定因素。

为什么重要

这条新闻值得关注,因为当前AI能耗基准测量每次推理的能量,对于涉及多步编排、工具调用和重试的智能体系统并不适用。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

人工智能能效基准测试长期以来一直以每次推理为粒度来衡量能耗,但对于智能体AI系统而言,这种指标存在根本性缺陷。智能体系统在执行单一用户目标时,可能会触发多步编排、工具调用、重试以及故障恢复循环,此时推理次数只是一个实现细节,而非任务属性。基于推理级的归一化无法正确反映目标完成的真实能耗成本。

针对这一问题,最新研究提出了A-LEMS(Agentic LLM Energy Measurement System)框架,将AI能耗核算单位从“每次推理的能量”重新定义为“每个成功目标的能量”(Energy per Successful Goal, EpG)。EpG聚合了所有执行尝试(包括失败和重试)的总工作流能量,并按成功完成的目标进行归一化。A-LEMS通过时间边界模型、五层观测管道(将RAPL信号映射到工作流级能量)以及可重复性协议(将每次测量绑定到硬件和运行时配置)来形式化能量归因。在EpG的基础上,研究还定义了编排开销指数(Orchestration Overhead Index, OOI),用于隔离在相同任务标准下编排相对于线性执行的额外能量成本。

研究团队在五个推理任务族(如数学推理、常识推理等)和三个工具增强任务族(如数据库查询、API调用等)上进行了实验。结果显示,智能体工作流每个成功目标的平均能耗为888.1焦耳,而线性基线仅为205.3焦耳,前者是后者的4.33倍。这种开销主要由编排结构驱动,而非推理计算本身。值得注意的是,在工具增强任务中,OOI反转至1.0以下,意味着智能体执行反而比线性执行更节能。这证实了该指标捕获的是编排结构的影响,而非固定的向上偏差。

这些发现表明,每次推理的能量度量对于智能体AI是不充分的。EpG和OOI为精确基准测试提供了测量基础,其中编排结构是能耗的主要决定因素。该框架为未来智能体系统的能效优化和标准化评估提供了重要工具,有助于推动AI系统在能耗方面的透明度和可持续性发展。