AI News HubLIVE
站内改写1 分钟阅读

PhoneHarness:通过混合GUI、CLI和工具操作实现手机使用代理

PhoneHarness是一个混合操作基准和执行框架,用于研究可验证手机工作流程中的手机使用代理。它集成GUI、CLI和主机端工具操作,实现75.0%的通过率,比非PhoneHarness设置高出12.9个百分点,强调操作表面路由和可验证执行的重要性。

来源arXiv Computational Linguistics作者: Chenxin Li, Zhengyao Fang, Zhengyang Tang, Pengyuan Lyu, Xingran Zhou, Xin Lai, Fei Tang, Liang Wu, Yiduo Guo, Weinong Wang, Junyi Li, Yi Zhang, Yang Ding, Huawen Shen, Sunqi Fan, Shangpin Peng, Zheng Ruan, Anran Zhang, Benyou Wang, Chengquan Zhang, Han Hu

近期,一篇名为《PhoneHarness:通过混合GUI、CLI和工具操作实现手机使用代理》的论文在arXiv上发布。该研究由Chenxin Li等21位作者共同完成,提出了一种名为PhoneHarness的混合操作基准和执行框架,旨在推动手机使用代理从简单的屏幕预测向真实工作流程执行迈进。

传统的手机代理研究主要关注图形用户界面(GUI)控制,即通过观察屏幕、执行点击和滑动等操作来达到目标应用状态。然而,现实中的手机使用任务更为复杂,需要代理决定何时使用应用GUI、设备端命令或结构化工具,并留下可验证的执行证据。PhoneHarness正是为解决这一挑战而设计。

PhoneHarness通过设备端代理循环集成GUI、命令行界面(CLI)和主机端工具操作,结合确定性操作路由、有限GUI委托和可审计执行轨迹。其配套基准测试PhoneHarness Bench评估代理是否能够完成具有可观察副作用的实际任务,而不仅仅输出看似合理的最终答案。

实验结果显示,在标注评估集上,PhoneHarness达到了75.0%的通过率,比最强的非PhoneHarness设置高出12.9个百分点。研究者指出,PhoneHarness和PhoneHarness Bench扮演着不同但相互依赖的角色:框架使混合手机工作流程可执行,而基准测试则衡量代理能否可靠且安全地使用该框架。

该研究强调,可靠的手机关自动化不仅依赖于视觉GUI控制,更需要操作表面路由和可验证执行机制。这一发现为未来手机代理的设计提供了重要指导,有望推动更实用、更可靠的移动端自动化系统的发展。