2026-06-18站内改写1 分钟阅读更新: 2026-06-18

VISUALSKILL：面向计算机使用代理的多模态技能

VISUALSKILL是一种分层多模态技能库，通过将视觉图形纳入技能表示，显著提升了计算机使用代理在长期任务和未知软件上的表现。在CUA-World和OSExpert-Eval基准测试中，使用VISUALSKILL的Claude Code CLI代理获得了0.456的平均分数，比无技能基线提升15.3个百分点，比纯文本技能提升8.3个百分点。

来源arXiv Computational Linguistics作者: Ziyan Jiang, Li An, Yujian Liu, Jiabao Ji, Qiucheng Wu, Jacob Andreas, Yang Zhang, Shiyu Chang

计算机使用代理（CUA）在标准化基准测试中已接近人类水平，但在处理长期任务和未见过的新软件时仍然面临显著挑战。现有技能库通过可重用技能来缓解这一问题，但这些技能仅以纯文本形式呈现，忽略了图形用户界面（GUI）交互本质上的视觉特性。为此，研究者提出了一种名为VISUALSKILL的创新方法，它是一个层次化的多模态技能库，专门针对每个目标应用进行定制，并以中央索引的形式按主题组织成文件。代理通过一个名为load_topic的MCP工具按需获取相关主题的文本和图形。

VISUALSKILL的技能构建采用两阶段流水线：第一阶段利用已经编写好的文档（如官方教程或API文档）提取基础知识；第二阶段则通过实时应用程序的UI探索来捕获实际的界面元素、布局和工作流程。这种结合确保了技能既准确又贴近实际使用场景。例如，对于复杂的办公软件，VISUALSKILL不仅包含文字说明，还保留了屏幕截图、按钮高亮等视觉提示，帮助代理更好地理解界面状态。

在两项标准的CUA基准测试——CUA-World和OSExpert-Eval——中，研究者评估了由Claude Opus 4.6驱动的Claude Code CLI代理的表现。使用VISUALSKILL后，代理的平均得分达到0.456，相比没有技能支持的基线分数0.303，提升了15.3个百分点。更重要的是，为了直接检验视觉信息的效果，研究者还构建了一个纯文本版本的技能，它由相同的源内容生成，仅在模态上与VISUALSKILL不同——所有视觉图形都被转换为文字描述。结果令人信服：VISUALSKILL相比纯文本技能（0.373）又取得了8.3个百分点的绝对提升。

这样显著的差距提供了直接证据：在技能制品中保留视觉图形（而非将其转化为文字）能够帮助代理更准确地识别UI元素，并在每次操作后验证工作流状态。研究团队已将代码开源，以促进该领域的进一步探索。这项工作不仅提升了CUA在未知软件上的适应性，还为构建更智能、更具视觉感知能力的自主代理指明了方向。