AI News HubLIVE
站内改写1 分钟阅读

MacArena:在线上macOS环境中对计算机使用代理进行基准测试

MacArena是一个新的基准测试,包含421个手动验证的任务,涵盖50个应用程序,专门用于评估macOS上的计算机使用代理(CUA)。它结合了OSWorld和macOSWorld的任务以及49个新的macOS原生任务,运行在Apple Silicon的原生虚拟化框架上。评估表明,macOS带来了独特的GUI挑战,模型在现有基准上的表现并不能反映其跨平台能力,排名在移植任务和macOS原生任务之间发生反转,领先模型在MacArena子集上落后超过26%。

来源arXiv Machine Learning作者: Victor Muryn, Maksym Shamrai, Sofiia Mazepa, Yehor Khodysko

计算机使用代理(CUA)通过视觉和控制原语操作图形用户界面(GUI),其能力在标准化在线评估基准(如OSWorld)的推动下迅速提升。OSWorld不仅作为评估工具,还作为强化学习的训练环境。然而,macOS在此领域仍未被充分覆盖:现有的唯一基准macOSWorld仅涵盖有限的第一方应用和简单任务,且运行在与Apple Silicon不兼容的x86虚拟机上。

为此,研究团队提出了MacArena,一个包含421个手动验证任务的基准测试,覆盖50个应用程序。MacArena整合了精心移植的OSWorld任务、来自macOSWorld的内容以及49个新的macOS原生任务,全部运行在Apple Silicon的原生Virtualization框架上。这使得MacArena能够更真实地反映macOS环境下的GUI交互挑战。

研究人员认为,macOS带来了Linux基准无法捕捉的独特GUI挑战,例如窗口管理、菜单栏交互、macOS特有的控件等。评估结果有力地支持了这一观点:模型在现有基准上的强劲表现可能源于对任务分布的熟悉,而非真正的跨平台GUI能力。值得注意的是,模型排名在移植任务(来自Linux的OSWorld任务)和macOS原生任务之间发生反转,领先模型在MacArena子集上落后超过26%。这表明macOS对当前GUI代理而言是一个真正更困难的环境。

该论文已被ICML 2026的“野外代理:安全、安保与超越”(AIWILD)研讨会接收,主题涵盖机器学习、人工智能和人机交互。这一研究为CUA社区的开发者提供了重要的评估工具,也揭示了跨平台GUI代理的挑战。