AI News HubLIVE
站内改写

MicrosoftがFara1.5を公開:ブラウザ操作エージェントファミリー(4B/9B/27B)がOnline-Mind2WebでOpenAI OperatorとGemini 2.5 Computer Useを上回る

Microsoft Researchは、ブラウザ操作エージェントのファミリーであるFara1.5を4B、9B、27Bのサイズで公開しました。Fara1.5-27BはOnline-Mind2Webで72%のタスク成功率を達成し、OpenAI Operator(58.3%)やGemini 2.5 Computer Use(57.3%)を上回りました。また、ゲート付きドメインでのトレーニングを可能にする合成データパイプラインFaraGen1.5も含まれています。

記事インテリジェンス

エンジニア中級

要点

  • Fara1.5はMicrosoft Researchによるブラウザ操作エージェントのファミリーで、Qwen3.5をベースに4B、9B、27Bのパラメータサイズを持つ。
  • Fara1.5-27BはOnline-Mind2Webで72%を記録し、OpenAI OperatorやGemini 2.5 Computer Useを凌駕。
  • FaraGen1.5合成データパイプラインは、GitHub Copilot CLIで構築された6つの機能クローンアプリ(FaraEnvs)を通じてゲート付きドメインでのトレーニングを可能にする。
  • Fara1.5は、情報不足、タスクの曖昧さ、承認なしの不可逆アクションなどの重要なポイントでユーザーに確認を求める。

重要な理由

このニュースが重要なのは、Fara1.5はMicrosoft Researchによるブラウザ操作エージェントのファミリーで、Qwen3.5をベースに4B、9B、27Bのパラメータサイズを持つためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Microsoft ResearchのAI Frontiersラボは、ブラウザ用コンピュータ使用エージェント(CUA)モデルのファミリーであるFara1.5を公開しました。今回のリリースには3つのサイズ(Fara1.5-4B、Fara1.5-9B、Fara1.5-27B)が含まれ、MicrosoftのサンドボックスブラウザインターフェースであるMagenticLiteと統合されています。

コンピュータ使用エージェントは、実際のブラウザを操作するピクセル・ツー・アクションモデルです。スクリーンショットを読み取り、マウスやキーボードのアクションを出力してタスクを完了します。OpenAIのOperatorやGoogleのGemini 2.5 Computer Useなどの最近のエージェント製品もこのカテゴリに属します。

Fara1.5-27Bは、Online-Mind2Webベンチマークで72%のタスク成功率を達成しました。このベンチマークは136の人気サイトにわたる300のタスクをカバーしています。同じ評価で、OpenAIのOperatorは58.3%、Gemini 2.5 Computer Useは57.3%、YutoriのNavigator n1は64.7%、Fara1.5-9Bは63.4%でした。これは、同じベンチマークで34.1%だった前世代のFara-7Bのほぼ2倍のスコアです。

アーキテクチャとエージェントループ:モデルはQwen3.5のベースチェックポイントを4B、9B、27Bのバリエーションで使用しています。これらは「観察→思考→行動」のループで動作します。各ステップで、モデルは以前の会話履歴と最新の3つのブラウザスクリーンショットを受け取り、思考と次のアクションを出力します。アクションスペースには、標準的なマウスとキーボードの入力、Web検索などのWeb固有のアクション、およびコンテキスト管理のためのメタアクション(後で使用するための事実の記憶やユーザーへの明確化質問など)が含まれます。これらのメタアクションにより、エージェントはより長い時間軸で動作し、ユーザーと協調して作業できます。

トレーニング構成:トレーニングは約200万サンプルを用いた教師ありファインチューニングで行われます。内訳は、Webトラジェクトリ60%、合成環境12.8%、フォーム入力とユーザーインタラクション12.5%、グラウンディング8.8%、VQA 4.9%です。より小さな割合でGUIドラッグ、指示追従、安全性が含まれます。損失は各トラジェクトリの最後の3ターンにのみ適用されます。

FaraGen1.5合成データパイプライン:FaraGen1.5はトレーニングトラジェクトリを生成する合成パイプラインで、環境、ソルバー、検証器の3つのモジュラーコンポーネントを持ちます。環境は2種類に分かれます。オープンインターネットタスクはログイン不要のライブWebサイト上で実行され、ゲート付きドメインタスクは認証セッションが必要か、メール送信のような不可逆アクションを含みます。ゲート付きドメインのために、チームはFaraEnvsと呼ばれる6つの合成クローンを構築しました。これらはメール、カレンダー、ストリーム、ML、ステイ、スケジューラーをカバーします。各クローンは現実的なフロントエンド、完全なAPI、ペルソナベースのシードデータを持つデータベースを備えています。これらの環境はGitHub Copilot CLIと反復的な人間による改良を用いて構築されました。チームが完全なスタックを制御しているため、すべてのタスクの正しい結果を知っています。バックエンドを変更するタスクについては、LLM審判が実行前後のデータベーススナップショットを比較します。状態を変更しないタスクは、事前計算された参照回答に対してスコアリングされます。ソルバーエージェントはOpenAIのGPT-5.4と、Fara1.5のアクションスペースをミラーリングしたカスタムツールを使用します。ソルバーは自動WebJudgeを使用してOnline-Mind2Webで83%のスコアを達成しました。以前のFara-7Bソルバーは同じ評価で67%でした。ソルバーがask_user呼び出しを発行したとき、またはタスクを完了したときに、ユーザーシミュレーターが呼び出されます。3つの検証器がどのトラジェクトリをトレーニングに含めるかを決定します。正確性(オープンインターネットタスクにはLLM生成のルーブリック、合成タスクには特権データベース判断)、効率性(冗長または不要なアクションをペナルティ)、ユーザーインタラクション検証(エージェントが重要なポイントで一時停止したかどうかをチェック)です。

重要なポイントと安全性:Fara1.5は3つの状況で停止してユーザーに問い合わせるように訓練されています。タスクにユーザーが提供していない個人情報が必要な場合、タスクの説明があいまいで行動に必要な詳細が不足している場合、承認なしに不可逆アクションを実行しようとしている場合です。安全性トレーニングには、公開安全データセットとMicrosoftの責任あるAIポリシーに沿った内部タスクが使用されています。MagenticLite内では、すべてのエージェントアクションがログに記録され監査可能です。サンドボックスブラウザはまた、エージェントとユーザーのマシン間のセキュリティ境界として機能します。

その他のベンチマーク:WebVoyagerでは、Fara1.5-27Bが88.6%、9Bが86.6%、4Bが80.8%を達成しました。9Bはまた、同サイズのMolmoWeb 8B、GUI-Owl-1.5 8B、Holo2 8Bを上回っています。すべてのFara1.5評価実行はBrowserbaseを使用してセッションを安定化し、セッションレベルのブロッキングを低減しています。数値は3回の独立した実行の平均です。長尾Webタスクを対象とするWebTailBench v1.5では、Fara1.5-9Bがプロセス成功率64.5%、結果成功率32.3%を記録しました。GPT-5.4は同じベンチマークでプロセス79.6%、結果57.4%でした。

まとめ:Fara1.5は複数のベンチマークでリーダー級のパフォーマンスを示し、合成データパイプラインと安全機構により、ブラウザ自動化エージェントの新たな基準を打ち立てました。