AI News HubLIVE
站内改写

マイクロソフトリサーチ、ターミナルネイティブWebエージェントフレームワーク「Webwright」を公開 — Odysseysで60.1%、GPT-5.4ベースの33.5%から向上

マイクロソフトリサーチは、クリックトレースのWeb自動化を再利用可能なPlaywrightスクリプトに置き換えるターミナルネイティブブラウザエージェントフレームワーク「Webwright」を発表。単一のエージェントループと約1000行のコードで、GPT-5.4を搭載したWebwrightは長期間タスクベンチマークOdysseysで60.1%、Online-Mind2Webで86.7%を達成し、オープンソースのハーネスレシピの中で最高のAutoEvalスコアを記録しました。

記事インテリジェンス

エンジニア中級

要点

  • Webwrightはターミナルループを使用し、エージェントがPlaywrightコードを記述・実行する方式で、ブラウザアクションを逐次予測する方式を置き換えます。
  • GPT-5.4はOnline-Mind2Webで86.7%(100ステップ予算)、Odysseysで60.1%を達成し、ベースGPT-5.4の33.5%から26.6ポイント向上。
  • フレームワークは約1000行、3モジュール構成で、マルチエージェントオーケストレーションはありません。
  • Qwen3.5-9Bは事前構築ツールスクリプトを追加することでOnline-Mind2Webの困難分割で66.2%を達成。

重要な理由

このニュースが重要なのは、Webwrightはターミナルループを使用し、エージェントがPlaywrightコードを記述・実行する方式で、ブラウザアクションを逐次予測する方式を置き換えますためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

現在のほとんどのWebエージェントは、ブラウザを1アクションずつ駆動します。モデルは現在のページ状態(スクリーンショットやDOMテキスト)を受け取り、次のクリック、キープレス、スクロールを予測します。このアクション単位の設計は、言語モデルの推論能力が限られていた時代には理にかなっていましたが、モデルがコードの記述やデバッグに長けるようになるにつれて、この固定ループは制約になりつつあります。

マイクロソフトリサーチのAI Frontiersラボは異なるアプローチを構築しました。新しいオープンソースフレームワーク「Webwright」は、エージェントにステートフルなブラウザセッションではなくターミナルを与えます。エージェントはPlaywrightコードを記述してブラウザを制御し、bashコマンドを実行し、ログを検査し、反復的にスクリプトを改良します。Playwrightはマイクロソフトが開発したオープンソースのブラウザ自動化ライブラリで、Chromium、Firefox、WebKitブラウザのプログラム制御をサポートしています。

Webwrightはエージェントをブラウザから分離し、ブラウザをプログラム開発中に起動、検査、破棄できる対象として扱います。永続的な成果物はブラウザセッションではなく、ローカルワークスペースのコードとログです。これは開発者がRPA(ロボティックプロセスオートメーション)スクリプトを記述するのと同じモデルです。スクリプトを一度書けば、再実行、適応、共有が可能です。システムは3つのコアコンポーネントで構成されます。Runner(約150行)、Model Endpoint(約550行)、ターミナルEnvironment(約300行)です。マルチエージェントオーケストレーションや複雑な計画階層はなく、単一のエージェントループのみです。すべての中間コード、ログ、スクリーンショット、結果はワークスペースに保存され、各実行の検査が容易になります。

エージェントループの仕組み:Runnerが現在のコンテキストをモデルに送信し、モデルは思考ブロックとシェルコマンドを返します。そのコマンドがEnvironmentで実行され、ターミナル出力、ログ、スクリーンショット、エラートレースバックなどが戻ります。これらの観測結果はコンテキストに戻され、ループが続きます。コーディングエージェントは、日付の選択やフォーム全体の入力など、複数ステップのインタラクションをコンパクトなプログラムとして自然に表現できます。ループや関数、抽象化により、エージェントは同様のタスクを一般化でき、低レベルステップの類似シーケンスを繰り返し予測する必要がありません。

2つの主要な工学的課題は、早期完了とコンテキスト爆発です。早期完了に対しては、エージェントが自己反省設定を生成し、新しいフォルダにログとスクリーンショットを含む最終スクリプトを実行し、自己反省判定で成功/失敗を出力してから完了フラグを返すというゲートを追加しました。そうでなければフラグは破棄され再試行します。コンテキスト長については、長いコーディング軌跡がすぐにコンテキスト制限を超えるため、20ステップごとに履歴を単一の要約に圧縮します。

ベンチマーク結果:WebwrightはOnline-Mind2Web(136サイトの300タスク)でGPT-5.4を用いて86.67%の全体精度を達成し、オープンソースハーネスレシピの中で最高のAutoEvalスコアを記録しました。Claude Opus 4.7は84.7%でしたが、困難タスク(N=100ステップ)では80.5% vs 76.6%とGPT-5.4より優れていました。また、従来のスクリーンショットベースエージェント設定でGPT-5.4のベースラインを再現したところ、Webwrightはすべての難易度カテゴリで大幅な向上を示し、コード駆動のターミナルアプローチがステップバイステップの座標予測よりも優れていることが明らかになりました。Odysseys長期ブラウジングベンチマークでは、タスクの平均指示語数は272.3語で、2026年4月のリーダーボードで最高はOpus 4.6の44.5でした。Webwright(GPT-5.4搭載)は60.1%を達成し、従来の最先端から35.1%の相対改善、ベースGPT-5.4の33.5%からは79.4%の相対改善(絶対26.6ポイント)となりました。

コスト分析:Claude Opus 4.7はタスクあたりの平均ステップ数が少ない(21.9ステップ vs 26.3ステップ)ものの、価格が大幅に高い(入力$5 vs $2.5/100万トークン、出力$25 vs $15/100万トークン)ため、タスクあたりのコストはGPT-5.4の方が低くなります($2.37 vs $6.09)。最初の50ステップで82%の精度を達成し、次の50ステップで3〜4ポイント追加されます。

小規模モデルの性能:研究チームはOnline-Mind2Webの困難分割でQwen3.5-9Bもテストしました。事前構築済みの再利用可能ツールスクリプトを追加すると、5つ以上のツールを持つサイトで66.2%を達成し、小規模で低コストのモデルでも事前構築ツールライブラリと組み合わせれば複雑なWebタスクを処理できることを示しました。

Webwrightは約1000行のコード、3モジュール構成で、隠れたオーケストレーションはありません。OpenAI、Anthropic、OpenRouterのバックエンドをサポートし、スクリプトはClaude Code、Codex、OpenClawで再利用可能です。インストールにはPython 3.10以上、Chromium、APIキーが必要です。オープンソースリポジトリ:github.com/microsoft/Webwright。