MacArena:線上上macOS環境中對計算機使用代理進行基準測試
MacArena是一個新的基準測試,包含421個手動驗證的任務,涵蓋50個應用程式,專門用於評估macOS上的計算機使用代理(CUA)。它結合了OSWorld和macOSWorld的任務以及49個新的macOS原生任務,執行在Apple Silicon的原生虛擬化框架上。評估表明,macOS帶來了獨特的GUI挑戰,模型在現有基準上的表現並不能反映其跨平臺能力,排名在移植任務和macOS原生任務之間發生反轉,領先模型在MacArena子集上落後超過26%。
計算機使用代理(CUA)透過視覺和控制原語操作圖形使用者介面(GUI),其能力在標準化線上評估基準(如OSWorld)的推動下迅速提升。OSWorld不僅作為評估工具,還作為強化學習的訓練環境。然而,macOS在此領域仍未被充分覆蓋:現有的唯一基準macOSWorld僅涵蓋有限的第一方應用和簡單任務,且執行在與Apple Silicon不相容的x86虛擬機器上。
為此,研究團隊提出了MacArena,一個包含421個手動驗證任務的基準測試,覆蓋50個應用程式。MacArena整合了精心移植的OSWorld任務、來自macOSWorld的內容以及49個新的macOS原生任務,全部執行在Apple Silicon的原生Virtualization框架上。這使得MacArena能夠更真實地反映macOS環境下的GUI互動挑戰。
研究人員認為,macOS帶來了Linux基準無法捕捉的獨特GUI挑戰,例如視窗管理、選單欄互動、macOS特有的控制元件等。評估結果有力地支援了這一觀點:模型在現有基準上的強勁表現可能源於對任務分佈的熟悉,而非真正的跨平臺GUI能力。值得注意的是,模型排名在移植任務(來自Linux的OSWorld任務)和macOS原生任務之間發生反轉,領先模型在MacArena子集上落後超過26%。這表明macOS對當前GUI代理而言是一個真正更困難的環境。
該論文已被ICML 2026的“野外代理:安全、安保與超越”(AIWILD)研討會接收,主題涵蓋機器學習、人工智慧和人機互動。這一研究為CUA社群的開發者提供了重要的評估工具,也揭示了跨平臺GUI代理的挑戰。