WebCap:AIエージェント向けの再利用可能なブラウザ機能
WebCap は、AIエージェント向けのスクリプトファーストのブラウザ自動化ツールキットです。エージェントは実際のブラウザタブでスクリプトを実行し、再利用可能なワークフローを保存し、AIネイティブのユーザースクリプトを生成できます。精度と実行速度を向上させ、トークン消費を削減します。
WebCap は、ローカルファーストのブラウザ自動化ツールキットであり、AIエージェントが実際のブラウザタブを検査し、再利用可能なページ内スクリプトを実行し、成功したワークフローを後でコマンドラインで使用できるように保存し、自然言語のブラウザリクエストをAIネイティブのユーザースクリプトに変換できるようにします。エージェントは web-cap CLI を通じて WebCap と対話し、CLI は必要なローカルランタイムを自動的に管理するため、ユーザーは別途起動コマンドを必要としません。
クイックスタートとして、まず skills CLI で npx skills add edgestorage/web-cap を実行して Web Cap スキルをインストールします。このスキルには web-cap CLI のインストールと接続確認ワークフローが含まれています。次に、リリースページから Chrome 拡張機能の zip をダウンロードし、解凍して chrome://extensions から読み込みます。最後に web-cap session-status で接続を確認します。具体的な使用例として、Hacker News で最初の5つの投稿のコメントを要約するスクリプトや、YouTube Gaming の「トップライブゲーム」ブロックを一文で非表示にするスクリプトが提供されています。
WebCap のスクリプトファーストアプローチは、従来のアクションファーストのツールとは異なります。エージェントは Playwright スタイルのヘルパーを含む JavaScript をページ内で実行し、有用なスクリプトを再利用可能なブラウザスキルとして登録できます。これにより、WebCap はページ構造の検査や製品固有のUIへの適応が必要なワークフローに適しています。コアバリューは、検証済みのブラウザ操作を再利用可能なスクリプトとワークフローに変換し、精度と実行速度を向上させ、トークン消費を削減することです。
主な機能として、ブラウザ拡張ランタイム、コマンドラインインターフェース(スクリプト実行、登録、タブ作成、ユーザー引き継ぎ観察)、Playwright スタイルのページヘルパー(inspect, wait, click, fill, query, テキスト読み取り)、ローカルスクリプトレジストリ、AIネイティブのユーザースクリプト生成、ブラウザタブ作成とイベント監視コマンド、ローカルファーストの状態ストレージがあります。また、共有の Web Cap Hub リポジトリから既製のスクリプトを再利用でき、git clone して web-cap script-execute で実行できます。
証拠収集が有効な場合、WebCap はスクリプト実行前後にページを観察します。実行前に可視要素のスナップショットを撮り、実行中の DOM 変異を追跡し、変更された領域のスナップショットを撮って可視要素の差分を返します。実行証拠には、開かれたタブ、URL 変更、リロード、スクロール変更、管理されたクリック、キーボード入力、スクリプト呼び出しなどのブラウザ側イベントも含まれます。これにより、エージェントはスクリプトの宣言された JSON 結果だけでなく、ブラウザがスクリプト後に可視的に何をしたかを検査でき、検証、復旧、および新たに成功したスクリプトを再利用可能能力として登録するかどうかの判断に役立ちます。
エージェント指向の詳細として、ページターゲティング(スクリプト定義に対象サイト、URL パターン、ページヒント、タグ、タイプ、ステータス、バージョンを含む)、2つのスクリプトタイプ(読み取りスクリプトと操作スクリプト)、ユーザー引き継ぎ観察(wait-events コマンド)、ローカル実行履歴、成功ゲート付き登録(--register は ok: true の場合のみスクリプトを永続化)、タブ認識実行(特定の --tab-id をターゲット可能)があります。
ロードマップには、Web Cap Hub CLI、Firefox 拡張機能、Node.js 依存の軽減、ブラウザ側AIチャット統合、スクリプトコンパイルのクライアント移行が含まれています。アーキテクチャは、エージェント→CLI→ローカルランタイム→WebSocket→ブラウザ拡張→実際のブラウザタブという流れで、CLI がランタイムの起動と接続を自動的に処理します。
開発には Node.js 20 以上、pnpm 9.x、Chromium ベースのブラウザが必要です。pnpm install で依存関係をインストールし、pnpm dev で拡張機能の開発ビルドを起動し、WXT の出力ディレクトリから拡張機能を読み込みます。CLI コマンドには script-execute(スクリプトコードを選択したブラウザタブで実行、オプションで --timeout-ms, --script-file, --input-file, --no-evidence, --register)、browser-new-tab、session-status、wait-events があります。スクリプトは JSON 互換の入力と出力を持つ非同期関数で、実行時に Playwright スタイルのページヘルパーが注入されます。
全体として、WebCap は AIエージェント向けの効率的で再利用可能なブラウザ自動化層を提供し、Codex や Claude Code などのローカルエージェントツールに適しており、モデルは意思決定に集中し、安定したブラウザ操作はローカルの再利用可能な自動化によって処理されます。