AI News HubLIVE
站内改写2 分で読了

エージェントにツールを追加するだけでは不十分! 復旦大学と通義研究所が新たなCUA訓練パラダイムを提案

復旦大学と通義研究所は、GUIとツールのハイブリッド動作空間で最適な経路選択を学習するComputer Use Agent「ToolCUA」を発表。OSWorld-MCPで46.85%の精度を達成し、Claude-4-Sonnetを上回った。2段階訓練(データ合成とオンライン強化学習)により、エージェントはGUIとツールの使い分けを習得する。

ソース量子位著者: Jay

AIエージェントの分野では、GUI操作とツール呼び出しの両方をエージェントに与えれば自然に性能が向上するという共通認識があった。しかし、復旦大学と通義研究所の研究者らは、両方のモダリティを同時に利用可能にすると、かえって性能が低下するという直感に反する現象を発見した。彼らの新たな研究「ToolCUA」は、このハイブリッド動作空間の課題に対する体系的な解決策を提供する。

従来のComputer Use Agent(CUA)は、クリック、入力、スクロールなどの原子的なGUI操作に依存してきた。これらの操作は汎用性が高い反面、ステップ数が多くエラーが蓄積しやすい。一方、ツール呼び出しは効率的で正確だが、適切な文脈が必要となる。両者を単純に統合すると、「経路混乱」が生じる。エージェントはボタンをクリックすべきかAPIを呼び出すべきかの判断に迷い、ツールを過小利用または過剰利用してしまう。

ToolCUAは2段階の訓練パラダイムでこの問題に取り組む。第一段階では、既存のGUIのみの軌跡をインタリーブされたGUI-ツール軌跡に変換するデータ合成パイプラインを開発した。タスク目標と動作系列を分析し、グラウンディングされたツールライブラリを生成し、GUIとツールのステップを混在させた複数の軌跡バリアントを作成する。この初期段階とツールブートストラップ型強化学習(RFT)を組み合わせることで、モデルはツールの使用法と切り替えポイントの基礎を習得する。

第二段階では、実際のGUI-ツール環境でオンラインエージェント強化学習を実行する。重要な革新は、タスク成功報酬に加えて、ツール適切性報酬(R_tool)と経路効率報酬(R_length)の2つの要素を組み込んだTool-Efficient Path Rewardである。R_toolはツールが有益な場合のみ使用を促進し、R_lengthは短い成功軌跡を報酬する。これにより、モデルはツールの過剰・過小利用を防ぐ。

結果は顕著である。ToolCUA-8BはOSWorld-MCPベンチマークで46.85%の精度を達成し、Qwen3-VL-8Bベースラインから約66%の相対改善を示した。Claude-4-Sonnet(43.54%)やGemini-3.1-Pro(41.14%)を上回り、Claude-4.5-Sonnet(48.35%)に迫る。また、平均ステップ数はわずか14.93と、テストされた全モデルの中で最小であり、効率性も実証された。

アブレーション研究により、各コンポーネントの重要性が確認された。オフラインのインタリーブデータがない場合、オンラインRL単独では信頼できるツール使用を学習できず、ツール呼び出し率は低いままである。経路報酬を削除すると、精度が不安定になり軌跡長の改善も見られない。ハイブリッドGUI-ツール訓練は純粋なGUI訓練を一貫して上回り、ハイブリッド動作空間自体がより情報豊富な訓練信号を提供することが示された。

ToolCUAはクロスプラットフォームの汎化性能も示す。訓練はLinuxデスクトップ環境のみで行ったにもかかわらず、WindowsAgentArenaの未見のWindowsデスクトップアプリで33.8%の精度を達成し、Qwen3-VL-235Bなどの大規模モデルを上回った。これは訓練パラダイムが転移可能なハイブリッドアクション調整能力をもたらすことを示唆している。

実際の例は、ToolCUAの経路選択の威力を示している。LibreOffice Calcのタスクでは、ToolCUAはcreate_pivot_tableツールを直接呼び出し、長いメニュー操作を回避する。VS Codeのタスクでは、最初にadd_folderツールでディレクトリを追加し、その後GUIに切り替えて信頼ダイアログの「Yes」をクリックする——両モダリティの真の協調を示している。

ToolCUAは、GUIとツール操作をインテリジェントに組み合わせる実用的なコンピュータ使用エージェントへの重要な一歩である。チームはコードとモデル重みをオープンソース化し、次世代CUAのハイブリッド動作訓練へのさらなる研究を呼びかけている。