PhoneHarness:透過混合GUI、CLI和工具操作實現手機使用代理
PhoneHarness是一個混合操作基準和執行框架,用於研究可驗證手機工作流程中的手機使用代理。它整合GUI、CLI和主機端工具操作,實現75.0%的透過率,比非PhoneHarness設定高出12.9個百分點,強調操作表面路由和可驗證執行的重要性。
近期,一篇名為《PhoneHarness:透過混合GUI、CLI和工具操作實現手機使用代理》的論文在arXiv上釋出。該研究由Chenxin Li等21位作者共同完成,提出了一種名為PhoneHarness的混合操作基準和執行框架,旨在推動手機使用代理從簡單的螢幕預測向真實工作流程執行邁進。
傳統的手機代理研究主要關注圖形使用者介面(GUI)控制,即透過觀察螢幕、執行點選和滑動等操作來達到目標應用狀態。然而,現實中的手機使用任務更為複雜,需要代理決定何時使用應用GUI、裝置端命令或結構化工具,並留下可驗證的執行證據。PhoneHarness正是為解決這一挑戰而設計。
PhoneHarness透過裝置端代理迴圈整合GUI、命令列介面(CLI)和主機端工具操作,結合確定性操作路由、有限GUI委託和可審計執行軌跡。其配套基準測試PhoneHarness Bench評估代理是否能夠完成具有可觀察副作用的實際任務,而不僅僅輸出看似合理的最終答案。
實驗結果顯示,在標註評估集上,PhoneHarness達到了75.0%的透過率,比最強的非PhoneHarness設定高出12.9個百分點。研究者指出,PhoneHarness和PhoneHarness Bench扮演著不同但相互依賴的角色:框架使混合手機工作流程可執行,而基準測試則衡量代理能否可靠且安全地使用該框架。
該研究強調,可靠的手機關自動化不僅依賴於視覺GUI控制,更需要操作表面路由和可驗證執行機制。這一發現為未來手機代理的設計提供了重要指導,有望推動更實用、更可靠的移動端自動化系統的發展。