提升 AI 代理的速度和能效
麻省理工学院和微软的研究人员开发了一种名为 Murakkab 的系统,用于优化 AI 代理工作流的设计和部署。该系统让开发者用自然语言描述意图,自动选择最佳模型、工具和硬件配置,并动态调整以满足用户对速度或成本的要求。测试显示,与传统方法相比,Murakkab 仅需约35%的计算资源、27%的能耗和不到25%的成本,同时保持性能。
人工智能代理工作流是一种将多个模型和外部工具串联起来执行复杂任务的软件系统,例如分析视频并回答相关问题。然而,这些高度碎片化的系统在设计和部署过程中常常导致计算、能源和成本的浪费。
为了提升效率,麻省理工学院(MIT)和微软的研究人员开发了一种名为 Murakkab 的智能系统,它能够简化代理工作流的设计过程,并自动优化其实现方式。开发者只需用日常语言描述工作流的目标,无需事先指定所有细节。系统会自动确定最佳模型和工具组合,以及云提供商执行工作流时的理想硬件配置和计算资源分配。
Murakkab 能够根据每个用户的优先级(例如最小化成本或最大化速度)实时调整配置。在多个代理工作负载的测试中,与传统方法相比,该系统将部署所需计算单元数量减少了约65%,能耗降低约73%,成本减少超过75%,同时不损害性能。
“代理工作流变得非常复杂,正迅速成为云提供商的核心业务。能源消耗是一个巨大的问题,因此我们必须非常谨慎地确保这些工作流的效率。很容易过度分配资源,浪费能源和资金。让云提供商能够智能地优化这些工作流的资源分配,对所有人都是双赢。”论文第一作者、电气工程与计算机科学(EECS)研究生 Gohar Chaudhry 表示。
传统上,开发者必须预先硬编码所有技术选择,包括定义使用的 AI 代理、模型和工具及其顺序,以及运行工作流的硬件和速度与成本的权衡。Murakkab 通过允许开发者仅描述高层次意图(例如“一个视频问答应用,提取关键帧、生成转录并回答用户问题”)来简化这一过程。系统会自动识别现有最佳模型和工具,确定顺序和并行化方案,并动态适应新模型或加速器。
在云提供商部署时,Murakkab 根据用户约束(如延迟和准确性)优化硬件分配和调度。测试中,它在一个视频问答任务中仅牺牲约2%的准确性,便将能耗降低了一个数量级。研究人员计划将系统扩展到更复杂的工作流和更大集群,并探索新的代理应用优化机会。