2026-06-08站内改写1 分钟阅读更新: 2026-06-08

MacArena：在线上macOS环境中对计算机使用代理进行基准测试

MacArena是一个新的基准测试，包含421个手动验证的任务，涵盖50个应用程序，专门用于评估macOS上的计算机使用代理（CUA）。它结合了OSWorld和macOSWorld的任务以及49个新的macOS原生任务，运行在Apple Silicon的原生虚拟化框架上。评估表明，macOS带来了独特的GUI挑战，模型在现有基准上的表现并不能反映其跨平台能力，排名在移植任务和macOS原生任务之间发生反转，领先模型在MacArena子集上落后超过26%。

来源arXiv Machine Learning作者: Victor Muryn, Maksym Shamrai, Sofiia Mazepa, Yehor Khodysko

计算机使用代理（CUA）通过视觉和控制原语操作图形用户界面（GUI），其能力在标准化在线评估基准（如OSWorld）的推动下迅速提升。OSWorld不仅作为评估工具，还作为强化学习的训练环境。然而，macOS在此领域仍未被充分覆盖：现有的唯一基准macOSWorld仅涵盖有限的第一方应用和简单任务，且运行在与Apple Silicon不兼容的x86虚拟机上。

为此，研究团队提出了MacArena，一个包含421个手动验证任务的基准测试，覆盖50个应用程序。MacArena整合了精心移植的OSWorld任务、来自macOSWorld的内容以及49个新的macOS原生任务，全部运行在Apple Silicon的原生Virtualization框架上。这使得MacArena能够更真实地反映macOS环境下的GUI交互挑战。

研究人员认为，macOS带来了Linux基准无法捕捉的独特GUI挑战，例如窗口管理、菜单栏交互、macOS特有的控件等。评估结果有力地支持了这一观点：模型在现有基准上的强劲表现可能源于对任务分布的熟悉，而非真正的跨平台GUI能力。值得注意的是，模型排名在移植任务（来自Linux的OSWorld任务）和macOS原生任务之间发生反转，领先模型在MacArena子集上落后超过26%。这表明macOS对当前GUI代理而言是一个真正更困难的环境。

该论文已被ICML 2026的“野外代理：安全、安保与超越”（AIWILD）研讨会接收，主题涵盖机器学习、人工智能和人机交互。这一研究为CUA社区的开发者提供了重要的评估工具，也揭示了跨平台GUI代理的挑战。