WebBrainの紹介:ページを読み取り、ChromeとFirefoxでタスクを自動化する、オープンソースでローカルファーストのAIブラウザエージェント
WebBrainは、ChromeおよびFirefox向けの無料のMITライセンスのAIブラウザエージェントです。AskモードとActモードを通じて、ページの読み取り、データ抽出、マルチステップタスクの自動化を行います。プライバシーのためにllama.cppやOllamaなどのローカルモデルで実行するか、任意のクラウドAPIに接続できます。
WebBrainは、ChromeおよびFirefox向けの無料のオープンソースブラウザエージェントで、ページの読み取り、データ抽出、マルチステップタスクの自動化を実行します。ほとんどのブラウザAIプラグインとは異なり、完全にローカルモデル上で動作させることも可能です。
この拡張機能はEmre Sokulluによって開発され、MITライセンスの下で公開されており、完全なソースコードはGitHubで入手できます。ローカルモデルで実行する場合、ページデータはマシンから一切離れません。より高度な機能が必要な場合には、クラウドAPIに接続することもできます。
WebBrainはブラウザのサイドパネルに常駐します。ChromeではManifest V3とsidePanel APIを使用し、FirefoxではManifest V2とsidebar_actionを使用します。各タブは独立した会話履歴を保持します。この拡張機能は既存の認証セッション内で動作し、ログイン済みのアカウントをそのまま認識します。外部データを保存したり、テレメトリやアカウントを追加したりすることはありません。対応言語は英語、スペイン語、フランス語、トルコ語、中国語で、初回起動時にブラウザの言語を自動検出します。
WebBrainには2つのモードがあります。Askモードは読み取り専用で、ページを変更できません。Actモードはクリック、タイピング、スクロール、ナビゲーション、ワークフローの実行が可能です。Askモードは通常のコンテンツスクリプトを通じてページを読み取ります。ActモードはChrome DevTools Protocol(chrome.debugger API)を介してページを操作し、信頼された入力イベントを生成するため、クロスオリジンのiframeやシャドウDOMにもアクセスできます。この強力な機能は必要に応じて、タブごとに限定してデバッガーをアタッチします。Chromeは標準の「WebBrainがこのブラウザのデバッグを開始しました」というバナーを表示します。FirefoxにはCDP相当の機能がないため、Actモードの能力は限定的です。
予測可能性を高めるため、温度設定は固定されています。Actモードは0.15、Askモードは0.3、専用のビジョン・スクリーンショット説明は0です。
セキュリティモデルについて:ブラウザエージェントは敵対的な表面で動作します。Webページにはエージェントの動作を乗っ取るプロンプトインジェクションが隠されている可能性があります。WebBrainの設計はこれに直接対処します。エージェントは読み取り専用のAskモードで開始し、重要なアクションの前に確認を求めます(権限設定で無効化可能ですが、デフォルトはオン)。作成、送信、提出、購入などの操作には、表示されているUIを使用し、RESTやGraphQLエンドポイントを直接呼び出すことを拒否します。UIがどうしても機能しない場合に限り、会話ごとの/allow-apiオーバーライドが存在します。読み取り操作(READMEの取得や価格比較など)は、バックグラウンドHTTP(fetch_urlおよびresearch_urlツール)を使用し、リモートで何も変更しないため、厳格なルールは適用されません。
具体的なユースケース:データ抽出は明白で、カタログを開いて「このページのすべての製品名と価格を抽出して」と依頼します。研究サマリーも可能で、「この記事を要約して」と依頼し、その後具体的な質問をフォローします。WebBrainはペイウォールを正直に検出し、回避しようとはしません。また、読み取り前に一般的なクッキー同意バナーを閉じます。フォーム入力では、オプションのプロフィール自動入力機能が短い経歴をローカルの平文で保存し、低リスクのフォームを完了するために設定済みのLLMに送信します。自動化では、「github.comに移動してトレンドリポジトリを見つけて」といった複数ステップのタスクをチェーンします。
トークンコストを抑えるため、WebBrainは3つの方法で制限します。スクリーンショットはマシンから送信される前にリサイズされ、反復的にJPEG圧縮されます。会話履歴とツール出力は、コンテキストウィンドウが埋まるにつれて古いものから切り捨てられます。また、安価なテキストモデルをプランニングに使用し、別のビジョンモデルをスクリーンショットに使用することもできます。
他のツールとの比較:WebBrainはブラウザAIプラグインと本格的なエージェントフレームワークの中間に位置します。Claude in Chromeと比較すると、WebBrainは完全にオープンソースで無料、ローカルLLMをサポートし、マルチプロバイダー、Firefox対応、完全オフライン可能です。OpenClawやBrowser-Useなどのフレームワークは、ヘッドレスパイプライン向けの開発者SDKであり、WebBrainはチャットパネルから操作するエンドユーザー拡張機能です。
WebBrainは統一インターフェースを通じてローカルモデルとクラウドモデルをサポートします。ローカルオプションにはllama.cpp、Ollama、LM Studio、Jan、vLLM、SGLangが含まれます。クラウドオプションにはOpenAI、Anthropic Claude、Gemini、Mistral、DeepSeek、xAI Grokなどがあります。内蔵のマネージドオプションであるWebBrain Cloudはローカルセットアップ不要で、月額5ドル(デバイスプロファイルあたり、フェアユースポリシー)です。ローカルで使用する場合、llama.cppはAPIキーを必要としません。ローカルサーバーの起動コマンド例:llama-server -m your-model.gguf -c 16384 --port 8080 または OLLAMA_ORIGINS="*" ollama serve。推奨モデルはQwen 3.6 35B(Qwen3.6-35B-A3B)で、プロジェクトのスクリーンショットベンチマークでGemma 4を上回りました。
WebBrainはChrome Web Store、Firefox Add-ons、GitHubで入手可能です。製品詳細はwebbrainウェブサイトをご覧ください。