2026-06-18站内改写2 分で読了更新: 2026-06-18

VISUALSKILL: コンピュータ使用エージェントのためのマルチモーダルスキル

VISUALSKILLは、視覚的な図をスキル成果物に組み込んだ階層型マルチモーダルスキルライブラリであり、コンピュータ使用エージェントの長期タスクや未知のソフトウェアでの性能を大幅に向上させる。CUA-WorldとOSExpert-Evalのベンチマークで、VISUALSKILLを使用したClaude Code CLIエージェントは平均スコア0.456を達成し、スキルなしベースラインから15.3ポイント、テキストのみのスキルから8.3ポイントの改善を示した。

ソースarXiv Computational Linguistics著者: Ziyan Jiang, Li An, Yujian Liu, Jiabao Ji, Qiucheng Wu, Jacob Andreas, Yang Zhang, Shiyu Chang

記事インテリジェンス

エンジニア上級

要点

VISUALSKILLは、ドキュメントとライブアプリケーションのUI探索を組み合わせた2段階パイプラインで、対象アプリケーションごとに階層型マルチモーダルスキルを構築する。
2つのCUAベンチマークで、VISUALSKILLを使用したエージェントは平均0.456を達成し、ベースラインから15.3ポイント、テキストのみのスキルから8.3ポイントの向上。
視覚図を保持することで、エージェントがUI要素の識別とワークフロー状態の確認に役立つことを直接的に示した。

重要な理由

このニュースが重要なのは、VISUALSKILLは、ドキュメントとライブアプリケーションのUI探索を組み合わせた2段階パイプラインで、対象アプリケーションごとに階層型マルチモーダルスキルを構築するためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

コンピュータ使用エージェント（CUA）は標準化されたベンチマークで人間に近い性能を達成しているが、長期にわたるタスクや未見のソフトウェアを扱う際には依然として困難を抱えている。既存のスキルライブラリは再利用可能なスキルを提供することでこの問題に対処しているが、スキル成果物をテキストのみで表現しており、GUI操作の本質的に視覚的な性質を無視している。そこで研究者らは、VISUALSKILLを提案した。これは階層型マルチモーダルスキルであり、各ターゲットアプリケーションに特化して設計され、トピックごとのファイルに対する中央インデックスとして構成される。エージェントはload_topicというMCPツールを介して、必要なトピックのテキストと図をオンデマンドで取得する。

スキルの構築は2段階のパイプラインで行われる。第一段階では、既存のドキュメント（公式チュートリアルやAPIドキュメントなど）から基礎知識を抽出し、第二段階では実際のアプリケーションのUIを探索して、画面上の要素やレイアウト、ワークフローを直接取り込む。この方法により、スキルは実際の使用状況に即した正確なものとなる。例えば、複雑なオフィススイートの場合、VISUALSKILLはテキスト説明に加えて、スクリーンショットやボタンのハイライトなどの視覚的手がかりを保持する。

CUA-WorldとOSExpert-Evalという2つの標準ベンチマークで、Claude Opus 4.6をバックエンドとするClaude Code CLIエージェントを評価した。VISUALSKILLを使用した場合、エージェントの平均スコアは0.456に達し、スキルなしのベースライン（0.303）から15.3ポイントの絶対的な向上を示した。さらに、同一のソースから生成され、図をテキストに置き換えただけのテキストオンリースキル（0.373）と比較して、8.3ポイントの追加向上を達成した。

この結果は、スキル成果物に視覚図をそのまま保持することが、エージェントのUI要素認識とアクション後の状態確認を支援するという直接的な証拠を提供する。研究チームはコードを公開し、今後の研究発展を促進している。VISUALSKILLは未知のソフトウェアにおけるCUAの適応性を高めるだけでなく、より視覚的に賢い自律エージェントの構築に向けた重要な一歩である。