微軟發佈Fara1.5:瀏覽器計算機使用代理家族(4B/9B/27B)在Online-Mind2Web上超越OpenAI Operator和Gemini 2.5計算機使用
微軟研究院發佈了Fara1.5,這是一個瀏覽器計算機使用代理模型家族,包括4B、9B和27B三種規模。其中Fara1.5-27B在Online-Mind2Web基準測試中達到72%的任務成功率,超過了OpenAI Operator(58.3%)和Gemini 2.5 Computer Use(57.3%)。該發佈還包含了FaraGen1.5,一個用於生成訓練軌跡的合成數據流水線。
文章情報
要點
- Fara1.5是微軟研究院推出的瀏覽器計算機使用代理模型,基於Qwen3.5,有4B、9B和27B三種參數規模。
- Fara1.5-27B在Online-Mind2Web上取得72%的分數,領先於OpenAI Operator和Gemini 2.5 Computer Use。
- FaraGen1.5合成數據流水線通過六個功能克隆應用(FaraEnvs)實現對受限領域的訓練。
- Fara1.5在關鍵節點(如缺失信息、任務模糊或不可逆操作)會暫停並向用户詢問。
為甚麼重要
這條新聞值得關注,因為Fara1.5是微軟研究院推出的瀏覽器計算機使用代理模型,基於Qwen3.5,有4B、9B和27B三種參數規模。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
微軟研究院AI前沿實驗室發佈了Fara1.5,這是一個用於瀏覽器的計算機使用代理(CUA)模型家族。此次發佈包含三種規模:Fara1.5-4B、Fara1.5-9B和Fara1.5-27B。這些模型集成了MagenticLite,這是微軟為這些代理提供的沙盒瀏覽器界面。
計算機使用代理是一種像素到動作模型,能夠驅動真實瀏覽器。它們讀取屏幕截圖併發出鼠標和鍵盤操作以完成任務。最近的產品如OpenAI的Operator和Google的Gemini 2.5 Computer Use都屬於這一類別。
Fara1.5-27B在Online-Mind2Web基準測試中達到了72%的任務成功率。該基準涵蓋了136個流行網站上的300個任務。在相同的評估中,OpenAI的Operator得分為58.3%,Gemini 2.5 Computer Use得分為57.3%。Yutori的Navigator n1達到了64.7%,而Fara1.5-9B得分為63.4%。這幾乎是前代Fara-7B(在同一基準上得分為34.1%)的兩倍。
架構與代理循環:這些模型使用Qwen3.5基礎檢查點,分別有4B、9B和27B變體。它們通過“觀察-思考-行動”循環運行。在每個步驟中,模型接收之前的對話歷史和最近的三張瀏覽器截圖,然後輸出思考結果和下一個動作。動作空間包括標準鼠標鍵盤輸入以及網絡搜索等網絡特定動作,還包含用於上下文管理的元動作,例如記憶事實供以後使用或向用户提出澄清問題。這些元動作使代理能夠在更長時間範圍內操作並與用户協作。
訓練組合:訓練使用約200萬個樣本進行監督微調。其中60%為網絡軌跡,12.8%為合成環境。表單填寫和用户交互佔12.5%,接地佔8.8%,VQA佔4.9%。較小部分涵蓋GUI拖拽、指令遵循和安全。損失僅應用於每個軌跡的最後三個輪次。
FaraGen1.5合成數據流水線:FaraGen1.5是生成訓練軌跡的合成流水線,包含三個模塊化組件:環境、求解器和驗證器。環境分為兩種類型:開放網絡任務在無需登錄的實時網站上運行;受限領域任務需要認證會話或執行不可逆操作(如發送郵件)。對於受限領域,團隊構建了六個合成克隆體,稱為FaraEnvs,涵蓋郵件、日曆、流媒體、機器學習、住宿和日程安排。每個克隆體具有逼真的前端、完全功能的API和基於角色數據的數據庫。這些環境使用GitHub Copilot CLI結合人工迭代優化構建。由於團隊控制完整堆棧,他們知道每個任務的正確結果。對於改變後端狀態的任務,LLM裁判會比較執行前後的數據庫快照。不改變狀態的任務則根據預先計算的參考答案評分。求解器代理使用OpenAI的GPT-5.4配合自定義工具,這些工具鏡像Fara1.5的動作空間。求解器在Online-Mind2Web上使用自動WebJudge得分為83%。之前的Fara-7B求解器在同一評估中得分為67%。當求解器發出ask_user調用或完成任務時,會調用用户模擬器。三個驗證器決定哪些軌跡進入訓練:正確性(開放網絡任務使用LLM生成的規則,合成任務使用特權數據庫判斷)、效率(懲罰冗餘或不必要的動作)以及用户交互驗證(檢查代理是否在關鍵點暫停)。
關鍵點與安全:Fara1.5被訓練在三種情況下暫停並詢問用户:任務需要用户未提供的個人信息;任務描述模糊或缺少行動所需細節;即將執行不可逆操作而未事先獲得批准。安全訓練使用公共安全數據集和符合微軟負責任AI政策的內部任務。在MagenticLite中,所有代理動作都被記錄並可審計。沙盒瀏覽器也在代理和用户機器之間提供安全邊界。
其他基準:在WebVoyager上,Fara1.5-27B得分為88.6%,9B為86.6%,4B為80.8%。9B也超過了類似大小的MolmoWeb 8B、GUI-Owl-1.5 8B和Holo2 8B。所有Fara1.5評估運行都使用Browserbase來穩定會話並減少會話級阻塞。數字是三次獨立運行的平均值。在WebTailBench v1.5上(針對長尾網絡任務),Fara1.5-9B的過程成功率為64.5%,結果成功率為32.3%。GPT-5.4在同一基準上的過程成功率為79.6%,結果成功率為57.4%。
總結:Fara1.5在多個基準上展示了領先性能,其合成數據流水線和安全機制為瀏覽器自動化代理設定了新標準。