Orchestra-o1:全模态智能体编排框架
本文提出Orchestra-o1,一个支持文本、图像、音频和视频等多种模态统一编排的智能体协作框架。该框架通过模态感知的任务分解、在线子智能体专业化和并行子任务执行,在OmniGAIA基准上超越第二名方法10.3%的准确率。同时引入决策对齐组相对策略优化(DA-GRPO)训练方法,使Orchestra-o1-8B模型在开源全模态智能体中达到最先进水平。
近年来,基于大语言模型(LLM)的智能体系统取得了显著进展,尤其是智能体群(Agent Swarms)的成功,将研究范式从单智能体工作流转向多智能体系统。这一转变凸显了智能体编排(Agent Orchestration)在任务分解与协作中的核心作用。然而,现有编排框架仅支持有限的模态(如纯文本或图像),难以应对多模态共存的复杂场景——例如需要同时理解文本、图像、音频和视频的全模态任务。这种局限性在现实应用,如智能家居、自动驾驶或医疗诊断中尤为突出,因为这些场景要求统一协调来自不同传感器的信息。
针对这一挑战,来自复旦大学等机构的研究团队提出了Orchestra-o1,一种创新的全模态智能体编排框架。Orchestra-o1引入了一种统一的编排机制,能够实现模态感知的任务分解、在线子智能体专业化和并行子任务执行。具体而言,该框架首先根据输入数据的模态类型(文本、图像、音频或视频)自动拆解复杂任务,然后动态分配专门的子智能体处理对应模态,并并行执行子任务,最终整合结果。这种可扩展的设计使得智能体系统能够高效处理涉及异质信息源的复杂现实任务。在OmniGAIA基准测试中,Orchestra-o1相比第二名方法准确率提升了10.3%,展示了其卓越的性能。
此外,研究团队还提出了决策对齐组相对策略优化(DA-GRPO),一种高效的智能体强化学习方法。DA-GRPO通过决策对齐机制,在训练过程中优化智能体的协作策略,确保子智能体的行为与整体目标一致。利用DA-GRPO训练的Orchestra-o1-8B模型在所有现有开源全模态智能体中取得了最先进性能,甚至超越了某些闭源系统。该论文已提交至arXiv,涉及人工智能、计算语言学、计算机视觉与模式识别等学科领域。研究团队表示,Orchestra-o1不仅为多模态智能体协作提供了新的理论基础,还为未来的智能体系统设计指明了方向——即通过统一的编排框架,突破模态界限,实现更接近人类感知的通用智能。