PhoneHarness:通过混合GUI、CLI和工具操作实现手机使用代理
PhoneHarness是一个混合操作基准和执行框架,用于研究可验证手机工作流程中的手机使用代理。它集成GUI、CLI和主机端工具操作,实现75.0%的通过率,比非PhoneHarness设置高出12.9个百分点,强调操作表面路由和可验证执行的重要性。
近期,一篇名为《PhoneHarness:通过混合GUI、CLI和工具操作实现手机使用代理》的论文在arXiv上发布。该研究由Chenxin Li等21位作者共同完成,提出了一种名为PhoneHarness的混合操作基准和执行框架,旨在推动手机使用代理从简单的屏幕预测向真实工作流程执行迈进。
传统的手机代理研究主要关注图形用户界面(GUI)控制,即通过观察屏幕、执行点击和滑动等操作来达到目标应用状态。然而,现实中的手机使用任务更为复杂,需要代理决定何时使用应用GUI、设备端命令或结构化工具,并留下可验证的执行证据。PhoneHarness正是为解决这一挑战而设计。
PhoneHarness通过设备端代理循环集成GUI、命令行界面(CLI)和主机端工具操作,结合确定性操作路由、有限GUI委托和可审计执行轨迹。其配套基准测试PhoneHarness Bench评估代理是否能够完成具有可观察副作用的实际任务,而不仅仅输出看似合理的最终答案。
实验结果显示,在标注评估集上,PhoneHarness达到了75.0%的通过率,比最强的非PhoneHarness设置高出12.9个百分点。研究者指出,PhoneHarness和PhoneHarness Bench扮演着不同但相互依赖的角色:框架使混合手机工作流程可执行,而基准测试则衡量代理能否可靠且安全地使用该框架。
该研究强调,可靠的手机关自动化不仅依赖于视觉GUI控制,更需要操作表面路由和可验证执行机制。这一发现为未来手机代理的设计提供了重要指导,有望推动更实用、更可靠的移动端自动化系统的发展。