PhoneHarness:通過混合GUI、CLI和工具操作實現手機使用代理
PhoneHarness是一個混合操作基準和執行框架,用於研究可驗證手機工作流程中的手機使用代理。它集成GUI、CLI和主機端工具操作,實現75.0%的通過率,比非PhoneHarness設置高出12.9個百分點,強調操作表面路由和可驗證執行的重要性。
近期,一篇名為《PhoneHarness:通過混合GUI、CLI和工具操作實現手機使用代理》的論文在arXiv上發佈。該研究由Chenxin Li等21位作者共同完成,提出了一種名為PhoneHarness的混合操作基準和執行框架,旨在推動手機使用代理從簡單的屏幕預測向真實工作流程執行邁進。
傳統的手機代理研究主要關注圖形用户界面(GUI)控制,即通過觀察屏幕、執行點擊和滑動等操作來達到目標應用狀態。然而,現實中的手機使用任務更為複雜,需要代理決定何時使用應用GUI、設備端命令或結構化工具,並留下可驗證的執行證據。PhoneHarness正是為解決這一挑戰而設計。
PhoneHarness通過設備端代理循環集成GUI、命令行界面(CLI)和主機端工具操作,結合確定性操作路由、有限GUI委託和可審計執行軌跡。其配套基準測試PhoneHarness Bench評估代理是否能夠完成具有可觀察副作用的實際任務,而不僅僅輸出看似合理的最終答案。
實驗結果顯示,在標註評估集上,PhoneHarness達到了75.0%的通過率,比最強的非PhoneHarness設置高出12.9個百分點。研究者指出,PhoneHarness和PhoneHarness Bench扮演着不同但相互依賴的角色:框架使混合手機工作流程可執行,而基準測試則衡量代理能否可靠且安全地使用該框架。
該研究強調,可靠的手機關自動化不僅依賴於視覺GUI控制,更需要操作表面路由和可驗證執行機制。這一發現為未來手機代理的設計提供了重要指導,有望推動更實用、更可靠的移動端自動化系統的發展。