2026-06-08站内改写1 分鐘閱讀更新: 2026-06-08

MacArena：線上上macOS環境中對計算機使用代理進行基準測試

MacArena是一個新的基準測試，包含421個手動驗證的任務，涵蓋50個應用程式，專門用於評估macOS上的計算機使用代理（CUA）。它結合了OSWorld和macOSWorld的任務以及49個新的macOS原生任務，執行在Apple Silicon的原生虛擬化框架上。評估表明，macOS帶來了獨特的GUI挑戰，模型在現有基準上的表現並不能反映其跨平臺能力，排名在移植任務和macOS原生任務之間發生反轉，領先模型在MacArena子集上落後超過26%。

來源arXiv Machine Learning作者: Victor Muryn, Maksym Shamrai, Sofiia Mazepa, Yehor Khodysko

計算機使用代理（CUA）透過視覺和控制原語操作圖形使用者介面（GUI），其能力在標準化線上評估基準（如OSWorld）的推動下迅速提升。OSWorld不僅作為評估工具，還作為強化學習的訓練環境。然而，macOS在此領域仍未被充分覆蓋：現有的唯一基準macOSWorld僅涵蓋有限的第一方應用和簡單任務，且執行在與Apple Silicon不相容的x86虛擬機器上。

為此，研究團隊提出了MacArena，一個包含421個手動驗證任務的基準測試，覆蓋50個應用程式。MacArena整合了精心移植的OSWorld任務、來自macOSWorld的內容以及49個新的macOS原生任務，全部執行在Apple Silicon的原生Virtualization框架上。這使得MacArena能夠更真實地反映macOS環境下的GUI互動挑戰。

研究人員認為，macOS帶來了Linux基準無法捕捉的獨特GUI挑戰，例如視窗管理、選單欄互動、macOS特有的控制元件等。評估結果有力地支援了這一觀點：模型在現有基準上的強勁表現可能源於對任務分佈的熟悉，而非真正的跨平臺GUI能力。值得注意的是，模型排名在移植任務（來自Linux的OSWorld任務）和macOS原生任務之間發生反轉，領先模型在MacArena子集上落後超過26%。這表明macOS對當前GUI代理而言是一個真正更困難的環境。

該論文已被ICML 2026的“野外代理：安全、安保與超越”（AIWILD）研討會接收，主題涵蓋機器學習、人工智慧和人機互動。這一研究為CUA社群的開發者提供了重要的評估工具，也揭示了跨平臺GUI代理的挑戰。