AI News HubLIVE
站内改写

微軟釋出Fara1.5:瀏覽器計算機使用代理家族(4B/9B/27B)在Online-Mind2Web上超越OpenAI Operator和Gemini 2.5計算機使用

微軟研究院釋出了Fara1.5,這是一個瀏覽器計算機使用代理模型家族,包括4B、9B和27B三種規模。其中Fara1.5-27B在Online-Mind2Web基準測試中達到72%的任務成功率,超過了OpenAI Operator(58.3%)和Gemini 2.5 Computer Use(57.3%)。該釋出還包含了FaraGen1.5,一個用於生成訓練軌跡的合成資料流水線。

文章情報

工程師進階

要點

  • Fara1.5是微軟研究院推出的瀏覽器計算機使用代理模型,基於Qwen3.5,有4B、9B和27B三種引數規模。
  • Fara1.5-27B在Online-Mind2Web上取得72%的分數,領先於OpenAI Operator和Gemini 2.5 Computer Use。
  • FaraGen1.5合成資料流水線透過六個功能克隆應用(FaraEnvs)實現對受限領域的訓練。
  • Fara1.5在關鍵節點(如缺失資訊、任務模糊或不可逆操作)會暫停並向使用者詢問。

為什麼重要

這條新聞值得關注,因為Fara1.5是微軟研究院推出的瀏覽器計算機使用代理模型,基於Qwen3.5,有4B、9B和27B三種引數規模。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

微軟研究院AI前沿實驗室釋出了Fara1.5,這是一個用於瀏覽器的計算機使用代理(CUA)模型家族。此次釋出包含三種規模:Fara1.5-4B、Fara1.5-9B和Fara1.5-27B。這些模型整合了MagenticLite,這是微軟為這些代理提供的沙盒瀏覽器介面。

計算機使用代理是一種畫素到動作模型,能夠驅動真實瀏覽器。它們讀取螢幕截圖併發出滑鼠和鍵盤操作以完成任務。最近的產品如OpenAI的Operator和Google的Gemini 2.5 Computer Use都屬於這一類別。

Fara1.5-27B在Online-Mind2Web基準測試中達到了72%的任務成功率。該基準涵蓋了136個流行網站上的300個任務。在相同的評估中,OpenAI的Operator得分為58.3%,Gemini 2.5 Computer Use得分為57.3%。Yutori的Navigator n1達到了64.7%,而Fara1.5-9B得分為63.4%。這幾乎是前代Fara-7B(在同一基準上得分為34.1%)的兩倍。

架構與代理迴圈:這些模型使用Qwen3.5基礎檢查點,分別有4B、9B和27B變體。它們透過“觀察-思考-行動”迴圈執行。在每個步驟中,模型接收之前的對話歷史和最近的三張瀏覽器截圖,然後輸出思考結果和下一個動作。動作空間包括標準滑鼠鍵盤輸入以及網路搜尋等網路特定動作,還包含用於上下文管理的元動作,例如記憶事實供以後使用或向使用者提出澄清問題。這些元動作使代理能夠在更長時間範圍內操作並與使用者協作。

訓練組合:訓練使用約200萬個樣本進行監督微調。其中60%為網路軌跡,12.8%為合成環境。表單填寫和使用者互動佔12.5%,接地佔8.8%,VQA佔4.9%。較小部分涵蓋GUI拖拽、指令遵循和安全。損失僅應用於每個軌跡的最後三個輪次。

FaraGen1.5合成資料流水線:FaraGen1.5是生成訓練軌跡的合成流水線,包含三個模組化元件:環境、求解器和驗證器。環境分為兩種型別:開放網路任務在無需登入的即時網站上執行;受限領域任務需要認證會話或執行不可逆操作(如傳送郵件)。對於受限領域,團隊構建了六個合成克隆體,稱為FaraEnvs,涵蓋郵件、日曆、流媒體、機器學習、住宿和日程安排。每個克隆體具有逼真的前端、完全功能的API和基於角色資料的資料庫。這些環境使用GitHub Copilot CLI結合人工迭代最佳化構建。由於團隊控制完整堆疊,他們知道每個任務的正確結果。對於改變後端狀態的任務,LLM裁判會比較執行前後的資料庫快照。不改變狀態的任務則根據預先計算的參考答案評分。求解器代理使用OpenAI的GPT-5.4配合自定義工具,這些工具映象Fara1.5的動作空間。求解器在Online-Mind2Web上使用自動WebJudge得分為83%。之前的Fara-7B求解器在同一評估中得分為67%。當求解器發出ask_user呼叫或完成任務時,會呼叫使用者模擬器。三個驗證器決定哪些軌跡進入訓練:正確性(開放網路任務使用LLM生成的規則,合成任務使用特權資料庫判斷)、效率(懲罰冗餘或不必要的動作)以及使用者互動驗證(檢查代理是否在關鍵點暫停)。

關鍵點與安全:Fara1.5被訓練在三種情況下暫停並詢問使用者:任務需要使用者未提供的個人資訊;任務描述模糊或缺少行動所需細節;即將執行不可逆操作而未事先獲得批准。安全訓練使用公共安全資料集和符合微軟負責任AI政策的內部任務。在MagenticLite中,所有代理動作都被記錄並可審計。沙盒瀏覽器也在代理和使用者機器之間提供安全邊界。

其他基準:在WebVoyager上,Fara1.5-27B得分為88.6%,9B為86.6%,4B為80.8%。9B也超過了類似大小的MolmoWeb 8B、GUI-Owl-1.5 8B和Holo2 8B。所有Fara1.5評估執行都使用Browserbase來穩定會話並減少會話級阻塞。數字是三次獨立執行的平均值。在WebTailBench v1.5上(針對長尾網路任務),Fara1.5-9B的過程成功率為64.5%,結果成功率為32.3%。GPT-5.4在同一基準上的過程成功率為79.6%,結果成功率為57.4%。

總結:Fara1.5在多個基準上展示了領先效能,其合成資料流水線和安全機制為瀏覽器自動化代理設定了新標準。