AI News HubLIVE
站内改写1 分钟阅读

VISUALSKILL:面向计算机使用代理的多模态技能

VISUALSKILL是一种分层多模态技能库,通过将视觉图形纳入技能表示,显著提升了计算机使用代理在长期任务和未知软件上的表现。在CUA-World和OSExpert-Eval基准测试中,使用VISUALSKILL的Claude Code CLI代理获得了0.456的平均分数,比无技能基线提升15.3个百分点,比纯文本技能提升8.3个百分点。

来源arXiv Computational Linguistics作者: Ziyan Jiang, Li An, Yujian Liu, Jiabao Ji, Qiucheng Wu, Jacob Andreas, Yang Zhang, Shiyu Chang

计算机使用代理(CUA)在标准化基准测试中已接近人类水平,但在处理长期任务和未见过的新软件时仍然面临显著挑战。现有技能库通过可重用技能来缓解这一问题,但这些技能仅以纯文本形式呈现,忽略了图形用户界面(GUI)交互本质上的视觉特性。为此,研究者提出了一种名为VISUALSKILL的创新方法,它是一个层次化的多模态技能库,专门针对每个目标应用进行定制,并以中央索引的形式按主题组织成文件。代理通过一个名为load_topic的MCP工具按需获取相关主题的文本和图形。

VISUALSKILL的技能构建采用两阶段流水线:第一阶段利用已经编写好的文档(如官方教程或API文档)提取基础知识;第二阶段则通过实时应用程序的UI探索来捕获实际的界面元素、布局和工作流程。这种结合确保了技能既准确又贴近实际使用场景。例如,对于复杂的办公软件,VISUALSKILL不仅包含文字说明,还保留了屏幕截图、按钮高亮等视觉提示,帮助代理更好地理解界面状态。

在两项标准的CUA基准测试——CUA-World和OSExpert-Eval——中,研究者评估了由Claude Opus 4.6驱动的Claude Code CLI代理的表现。使用VISUALSKILL后,代理的平均得分达到0.456,相比没有技能支持的基线分数0.303,提升了15.3个百分点。更重要的是,为了直接检验视觉信息的效果,研究者还构建了一个纯文本版本的技能,它由相同的源内容生成,仅在模态上与VISUALSKILL不同——所有视觉图形都被转换为文字描述。结果令人信服:VISUALSKILL相比纯文本技能(0.373)又取得了8.3个百分点的绝对提升。

这样显著的差距提供了直接证据:在技能制品中保留视觉图形(而非将其转化为文字)能够帮助代理更准确地识别UI元素,并在每次操作后验证工作流状态。研究团队已将代码开源,以促进该领域的进一步探索。这项工作不仅提升了CUA在未知软件上的适应性,还为构建更智能、更具视觉感知能力的自主代理指明了方向。