2026-06-18站内改写1 分鐘閱讀更新: 2026-06-18

VISUALSKILL：面向計算機使用代理的多模態技能

VISUALSKILL是一種分層多模態技能庫，透過將視覺圖形納入技能表示，顯著提升了計算機使用代理在長期任務和未知軟體上的表現。在CUA-World和OSExpert-Eval基準測試中，使用VISUALSKILL的Claude Code CLI代理獲得了0.456的平均分數，比無技能基線提升15.3個百分點，比純文本技能提升8.3個百分點。

來源arXiv Computational Linguistics作者: Ziyan Jiang, Li An, Yujian Liu, Jiabao Ji, Qiucheng Wu, Jacob Andreas, Yang Zhang, Shiyu Chang

計算機使用代理（CUA）在標準化基準測試中已接近人類水平，但在處理長期任務和未見過的新軟體時仍然面臨顯著挑戰。現有技能庫透過可重用技能來緩解這一問題，但這些技能僅以純文本形式呈現，忽略了圖形使用者介面（GUI）互動本質上的視覺特性。為此，研究者提出了一種名為VISUALSKILL的創新方法，它是一個層次化的多模態技能庫，專門針對每個目標應用進行定製，並以中央索引的形式按主題組織成檔案。代理透過一個名為load_topic的MCP工具按需獲取相關主題的文本和圖形。

VISUALSKILL的技能構建採用兩階段流水線：第一階段利用已經編寫好的文件（如官方教程或API文件）提取基礎知識；第二階段則透過即時應用程式的UI探索來捕獲實際的介面元素、佈局和工作流程。這種結合確保了技能既準確又貼近實際使用場景。例如，對於複雜的辦公軟體，VISUALSKILL不僅包含文字說明，還保留了螢幕截圖、按鈕高亮等視覺提示，幫助代理更好地理解介面狀態。

在兩項標準的CUA基準測試——CUA-World和OSExpert-Eval——中，研究者評估了由Claude Opus 4.6驅動的Claude Code CLI代理的表現。使用VISUALSKILL後，代理的平均得分達到0.456，相比沒有技能支援的基線分數0.303，提升了15.3個百分點。更重要的是，為了直接檢驗視覺資訊的效果，研究者還構建了一個純文本版本的技能，它由相同的源內容生成，僅在模態上與VISUALSKILL不同——所有視覺圖形都被轉換為文字描述。結果令人信服：VISUALSKILL相比純文本技能（0.373）又取得了8.3個百分點的絕對提升。

這樣顯著的差距提供了直接證據：在技能製品中保留視覺圖形（而非將其轉化為文字）能夠幫助代理更準確地識別UI元素，並在每次操作後驗證工作流狀態。研究團隊已將程式碼開源，以促進該領域的進一步探索。這項工作不僅提升了CUA在未知軟體上的適應性，還為構建更智慧、更具視覺感知能力的自主代理指明瞭方向。