AI News HubLIVE
站内改写1 分鐘閱讀

VISUALSKILL:面向計算機使用代理的多模態技能

VISUALSKILL是一種分層多模態技能庫,透過將視覺圖形納入技能表示,顯著提升了計算機使用代理在長期任務和未知軟體上的表現。在CUA-World和OSExpert-Eval基準測試中,使用VISUALSKILL的Claude Code CLI代理獲得了0.456的平均分數,比無技能基線提升15.3個百分點,比純文本技能提升8.3個百分點。

來源arXiv Computational Linguistics作者: Ziyan Jiang, Li An, Yujian Liu, Jiabao Ji, Qiucheng Wu, Jacob Andreas, Yang Zhang, Shiyu Chang

計算機使用代理(CUA)在標準化基準測試中已接近人類水平,但在處理長期任務和未見過的新軟體時仍然面臨顯著挑戰。現有技能庫透過可重用技能來緩解這一問題,但這些技能僅以純文本形式呈現,忽略了圖形使用者介面(GUI)互動本質上的視覺特性。為此,研究者提出了一種名為VISUALSKILL的創新方法,它是一個層次化的多模態技能庫,專門針對每個目標應用進行定製,並以中央索引的形式按主題組織成檔案。代理透過一個名為load_topic的MCP工具按需獲取相關主題的文本和圖形。

VISUALSKILL的技能構建採用兩階段流水線:第一階段利用已經編寫好的文件(如官方教程或API文件)提取基礎知識;第二階段則透過即時應用程式的UI探索來捕獲實際的介面元素、佈局和工作流程。這種結合確保了技能既準確又貼近實際使用場景。例如,對於複雜的辦公軟體,VISUALSKILL不僅包含文字說明,還保留了螢幕截圖、按鈕高亮等視覺提示,幫助代理更好地理解介面狀態。

在兩項標準的CUA基準測試——CUA-World和OSExpert-Eval——中,研究者評估了由Claude Opus 4.6驅動的Claude Code CLI代理的表現。使用VISUALSKILL後,代理的平均得分達到0.456,相比沒有技能支援的基線分數0.303,提升了15.3個百分點。更重要的是,為了直接檢驗視覺資訊的效果,研究者還構建了一個純文本版本的技能,它由相同的源內容生成,僅在模態上與VISUALSKILL不同——所有視覺圖形都被轉換為文字描述。結果令人信服:VISUALSKILL相比純文本技能(0.373)又取得了8.3個百分點的絕對提升。

這樣顯著的差距提供了直接證據:在技能製品中保留視覺圖形(而非將其轉化為文字)能夠幫助代理更準確地識別UI元素,並在每次操作後驗證工作流狀態。研究團隊已將程式碼開源,以促進該領域的進一步探索。這項工作不僅提升了CUA在未知軟體上的適應性,還為構建更智慧、更具視覺感知能力的自主代理指明瞭方向。