2026-05-25 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

每个成功目标的能量：面向智能体AI系统的目标级能量核算

新研究提出A-LEMS框架，以每个成功目标的能量（EpG）而非每次推理来衡量AI能耗。实验表明，智能体工作流平均能耗是线性基线的4.33倍，编排结构是主要驱动因素，但在工具增强任务中可能更节能。

来源arXiv AI作者: Deepak Panigrahy, Aakash Tyagi

文章情报

工程师进阶

要点

当前AI能耗基准测量每次推理的能量，对于涉及多步编排、工具调用和重试的智能体系统并不适用。
A-LEMS引入每个成功目标的能量（EpG）和编排开销指数（OOI），以准确衡量智能体工作流的能耗成本。
实验显示智能体工作流每个目标的能耗比线性基线高4.33倍，但对于工具增强的任务，智能体执行可能比线性执行更节能。
该研究为智能体AI的能效基准测试提供了新的测量基础，强调编排结构是能耗的主要决定因素。

为什么重要

这条新闻值得关注，因为当前AI能耗基准测量每次推理的能量，对于涉及多步编排、工具调用和重试的智能体系统并不适用。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

人工智能能效基准测试长期以来一直以每次推理为粒度来衡量能耗，但对于智能体AI系统而言，这种指标存在根本性缺陷。智能体系统在执行单一用户目标时，可能会触发多步编排、工具调用、重试以及故障恢复循环，此时推理次数只是一个实现细节，而非任务属性。基于推理级的归一化无法正确反映目标完成的真实能耗成本。

针对这一问题，最新研究提出了A-LEMS（Agentic LLM Energy Measurement System）框架，将AI能耗核算单位从“每次推理的能量”重新定义为“每个成功目标的能量”（Energy per Successful Goal, EpG）。EpG聚合了所有执行尝试（包括失败和重试）的总工作流能量，并按成功完成的目标进行归一化。A-LEMS通过时间边界模型、五层观测管道（将RAPL信号映射到工作流级能量）以及可重复性协议（将每次测量绑定到硬件和运行时配置）来形式化能量归因。在EpG的基础上，研究还定义了编排开销指数（Orchestration Overhead Index, OOI），用于隔离在相同任务标准下编排相对于线性执行的额外能量成本。

研究团队在五个推理任务族（如数学推理、常识推理等）和三个工具增强任务族（如数据库查询、API调用等）上进行了实验。结果显示，智能体工作流每个成功目标的平均能耗为888.1焦耳，而线性基线仅为205.3焦耳，前者是后者的4.33倍。这种开销主要由编排结构驱动，而非推理计算本身。值得注意的是，在工具增强任务中，OOI反转至1.0以下，意味着智能体执行反而比线性执行更节能。这证实了该指标捕获的是编排结构的影响，而非固定的向上偏差。

这些发现表明，每次推理的能量度量对于智能体AI是不充分的。EpG和OOI为精确基准测试提供了测量基础，其中编排结构是能耗的主要决定因素。该框架为未来智能体系统的能效优化和标准化评估提供了重要工具，有助于推动AI系统在能耗方面的透明度和可持续性发展。