2026-05-22 16:32 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

微軟發佈Fara1.5：瀏覽器計算機使用代理家族（4B/9B/27B）在Online-Mind2Web上超越OpenAI Operator和Gemini 2.5計算機使用

微軟研究院發佈了Fara1.5，這是一個瀏覽器計算機使用代理模型家族，包括4B、9B和27B三種規模。其中Fara1.5-27B在Online-Mind2Web基準測試中達到72%的任務成功率，超過了OpenAI Operator（58.3%）和Gemini 2.5 Computer Use（57.3%）。該發佈還包含了FaraGen1.5，一個用於生成訓練軌跡的合成數據流水線。

來源MarkTechPost作者: Asif Razzaq

微軟研究院AI前沿實驗室發佈了Fara1.5，這是一個用於瀏覽器的計算機使用代理（CUA）模型家族。此次發佈包含三種規模：Fara1.5-4B、Fara1.5-9B和Fara1.5-27B。這些模型集成了MagenticLite，這是微軟為這些代理提供的沙盒瀏覽器界面。

計算機使用代理是一種像素到動作模型，能夠驅動真實瀏覽器。它們讀取屏幕截圖併發出鼠標和鍵盤操作以完成任務。最近的產品如OpenAI的Operator和Google的Gemini 2.5 Computer Use都屬於這一類別。

Fara1.5-27B在Online-Mind2Web基準測試中達到了72%的任務成功率。該基準涵蓋了136個流行網站上的300個任務。在相同的評估中，OpenAI的Operator得分為58.3%，Gemini 2.5 Computer Use得分為57.3%。Yutori的Navigator n1達到了64.7%，而Fara1.5-9B得分為63.4%。這幾乎是前代Fara-7B（在同一基準上得分為34.1%）的兩倍。

架構與代理循環：這些模型使用Qwen3.5基礎檢查點，分別有4B、9B和27B變體。它們通過“觀察-思考-行動”循環運行。在每個步驟中，模型接收之前的對話歷史和最近的三張瀏覽器截圖，然後輸出思考結果和下一個動作。動作空間包括標準鼠標鍵盤輸入以及網絡搜索等網絡特定動作，還包含用於上下文管理的元動作，例如記憶事實供以後使用或向用户提出澄清問題。這些元動作使代理能夠在更長時間範圍內操作並與用户協作。

訓練組合：訓練使用約200萬個樣本進行監督微調。其中60%為網絡軌跡，12.8%為合成環境。表單填寫和用户交互佔12.5%，接地佔8.8%，VQA佔4.9%。較小部分涵蓋GUI拖拽、指令遵循和安全。損失僅應用於每個軌跡的最後三個輪次。

FaraGen1.5合成數據流水線：FaraGen1.5是生成訓練軌跡的合成流水線，包含三個模塊化組件：環境、求解器和驗證器。環境分為兩種類型：開放網絡任務在無需登錄的實時網站上運行；受限領域任務需要認證會話或執行不可逆操作（如發送郵件）。對於受限領域，團隊構建了六個合成克隆體，稱為FaraEnvs，涵蓋郵件、日曆、流媒體、機器學習、住宿和日程安排。每個克隆體具有逼真的前端、完全功能的API和基於角色數據的數據庫。這些環境使用GitHub Copilot CLI結合人工迭代優化構建。由於團隊控制完整堆棧，他們知道每個任務的正確結果。對於改變後端狀態的任務，LLM裁判會比較執行前後的數據庫快照。不改變狀態的任務則根據預先計算的參考答案評分。求解器代理使用OpenAI的GPT-5.4配合自定義工具，這些工具鏡像Fara1.5的動作空間。求解器在Online-Mind2Web上使用自動WebJudge得分為83%。之前的Fara-7B求解器在同一評估中得分為67%。當求解器發出ask_user調用或完成任務時，會調用用户模擬器。三個驗證器決定哪些軌跡進入訓練：正確性（開放網絡任務使用LLM生成的規則，合成任務使用特權數據庫判斷）、效率（懲罰冗餘或不必要的動作）以及用户交互驗證（檢查代理是否在關鍵點暫停）。

關鍵點與安全：Fara1.5被訓練在三種情況下暫停並詢問用户：任務需要用户未提供的個人信息；任務描述模糊或缺少行動所需細節；即將執行不可逆操作而未事先獲得批准。安全訓練使用公共安全數據集和符合微軟負責任AI政策的內部任務。在MagenticLite中，所有代理動作都被記錄並可審計。沙盒瀏覽器也在代理和用户機器之間提供安全邊界。

其他基準：在WebVoyager上，Fara1.5-27B得分為88.6%，9B為86.6%，4B為80.8%。9B也超過了類似大小的MolmoWeb 8B、GUI-Owl-1.5 8B和Holo2 8B。所有Fara1.5評估運行都使用Browserbase來穩定會話並減少會話級阻塞。數字是三次獨立運行的平均值。在WebTailBench v1.5上（針對長尾網絡任務），Fara1.5-9B的過程成功率為64.5%，結果成功率為32.3%。GPT-5.4在同一基準上的過程成功率為79.6%，結果成功率為57.4%。

總結：Fara1.5在多個基準上展示了領先性能，其合成數據流水線和安全機制為瀏覽器自動化代理設定了新標準。