AI News HubLIVE
站内改写1 分鐘閱讀

PhoneHarness:透過混合GUI、CLI和工具操作實現手機使用代理

PhoneHarness是一個混合操作基準和執行框架,用於研究可驗證手機工作流程中的手機使用代理。它整合GUI、CLI和主機端工具操作,實現75.0%的透過率,比非PhoneHarness設定高出12.9個百分點,強調操作表面路由和可驗證執行的重要性。

來源arXiv Computational Linguistics作者: Chenxin Li, Zhengyao Fang, Zhengyang Tang, Pengyuan Lyu, Xingran Zhou, Xin Lai, Fei Tang, Liang Wu, Yiduo Guo, Weinong Wang, Junyi Li, Yi Zhang, Yang Ding, Huawen Shen, Sunqi Fan, Shangpin Peng, Zheng Ruan, Anran Zhang, Benyou Wang, Chengquan Zhang, Han Hu

近期,一篇名為《PhoneHarness:透過混合GUI、CLI和工具操作實現手機使用代理》的論文在arXiv上釋出。該研究由Chenxin Li等21位作者共同完成,提出了一種名為PhoneHarness的混合操作基準和執行框架,旨在推動手機使用代理從簡單的螢幕預測向真實工作流程執行邁進。

傳統的手機代理研究主要關注圖形使用者介面(GUI)控制,即透過觀察螢幕、執行點選和滑動等操作來達到目標應用狀態。然而,現實中的手機使用任務更為複雜,需要代理決定何時使用應用GUI、裝置端命令或結構化工具,並留下可驗證的執行證據。PhoneHarness正是為解決這一挑戰而設計。

PhoneHarness透過裝置端代理迴圈整合GUI、命令列介面(CLI)和主機端工具操作,結合確定性操作路由、有限GUI委託和可審計執行軌跡。其配套基準測試PhoneHarness Bench評估代理是否能夠完成具有可觀察副作用的實際任務,而不僅僅輸出看似合理的最終答案。

實驗結果顯示,在標註評估集上,PhoneHarness達到了75.0%的透過率,比最強的非PhoneHarness設定高出12.9個百分點。研究者指出,PhoneHarness和PhoneHarness Bench扮演著不同但相互依賴的角色:框架使混合手機工作流程可執行,而基準測試則衡量代理能否可靠且安全地使用該框架。

該研究強調,可靠的手機關自動化不僅依賴於視覺GUI控制,更需要操作表面路由和可驗證執行機制。這一發現為未來手機代理的設計提供了重要指導,有望推動更實用、更可靠的移動端自動化系統的發展。