微软发布Fara1.5:浏览器计算机使用代理家族(4B/9B/27B)在Online-Mind2Web上超越OpenAI Operator和Gemini 2.5计算机使用
微软研究院发布了Fara1.5,这是一个浏览器计算机使用代理模型家族,包括4B、9B和27B三种规模。其中Fara1.5-27B在Online-Mind2Web基准测试中达到72%的任务成功率,超过了OpenAI Operator(58.3%)和Gemini 2.5 Computer Use(57.3%)。该发布还包含了FaraGen1.5,一个用于生成训练轨迹的合成数据流水线。
文章情报
要点
- Fara1.5是微软研究院推出的浏览器计算机使用代理模型,基于Qwen3.5,有4B、9B和27B三种参数规模。
- Fara1.5-27B在Online-Mind2Web上取得72%的分数,领先于OpenAI Operator和Gemini 2.5 Computer Use。
- FaraGen1.5合成数据流水线通过六个功能克隆应用(FaraEnvs)实现对受限领域的训练。
- Fara1.5在关键节点(如缺失信息、任务模糊或不可逆操作)会暂停并向用户询问。
为什么重要
这条新闻值得关注,因为Fara1.5是微软研究院推出的浏览器计算机使用代理模型,基于Qwen3.5,有4B、9B和27B三种参数规模。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
微软研究院AI前沿实验室发布了Fara1.5,这是一个用于浏览器的计算机使用代理(CUA)模型家族。此次发布包含三种规模:Fara1.5-4B、Fara1.5-9B和Fara1.5-27B。这些模型集成了MagenticLite,这是微软为这些代理提供的沙盒浏览器界面。
计算机使用代理是一种像素到动作模型,能够驱动真实浏览器。它们读取屏幕截图并发出鼠标和键盘操作以完成任务。最近的产品如OpenAI的Operator和Google的Gemini 2.5 Computer Use都属于这一类别。
Fara1.5-27B在Online-Mind2Web基准测试中达到了72%的任务成功率。该基准涵盖了136个流行网站上的300个任务。在相同的评估中,OpenAI的Operator得分为58.3%,Gemini 2.5 Computer Use得分为57.3%。Yutori的Navigator n1达到了64.7%,而Fara1.5-9B得分为63.4%。这几乎是前代Fara-7B(在同一基准上得分为34.1%)的两倍。
架构与代理循环:这些模型使用Qwen3.5基础检查点,分别有4B、9B和27B变体。它们通过“观察-思考-行动”循环运行。在每个步骤中,模型接收之前的对话历史和最近的三张浏览器截图,然后输出思考结果和下一个动作。动作空间包括标准鼠标键盘输入以及网络搜索等网络特定动作,还包含用于上下文管理的元动作,例如记忆事实供以后使用或向用户提出澄清问题。这些元动作使代理能够在更长时间范围内操作并与用户协作。
训练组合:训练使用约200万个样本进行监督微调。其中60%为网络轨迹,12.8%为合成环境。表单填写和用户交互占12.5%,接地占8.8%,VQA占4.9%。较小部分涵盖GUI拖拽、指令遵循和安全。损失仅应用于每个轨迹的最后三个轮次。
FaraGen1.5合成数据流水线:FaraGen1.5是生成训练轨迹的合成流水线,包含三个模块化组件:环境、求解器和验证器。环境分为两种类型:开放网络任务在无需登录的实时网站上运行;受限领域任务需要认证会话或执行不可逆操作(如发送邮件)。对于受限领域,团队构建了六个合成克隆体,称为FaraEnvs,涵盖邮件、日历、流媒体、机器学习、住宿和日程安排。每个克隆体具有逼真的前端、完全功能的API和基于角色数据的数据库。这些环境使用GitHub Copilot CLI结合人工迭代优化构建。由于团队控制完整堆栈,他们知道每个任务的正确结果。对于改变后端状态的任务,LLM裁判会比较执行前后的数据库快照。不改变状态的任务则根据预先计算的参考答案评分。求解器代理使用OpenAI的GPT-5.4配合自定义工具,这些工具镜像Fara1.5的动作空间。求解器在Online-Mind2Web上使用自动WebJudge得分为83%。之前的Fara-7B求解器在同一评估中得分为67%。当求解器发出ask_user调用或完成任务时,会调用用户模拟器。三个验证器决定哪些轨迹进入训练:正确性(开放网络任务使用LLM生成的规则,合成任务使用特权数据库判断)、效率(惩罚冗余或不必要的动作)以及用户交互验证(检查代理是否在关键点暂停)。
关键点与安全:Fara1.5被训练在三种情况下暂停并询问用户:任务需要用户未提供的个人信息;任务描述模糊或缺少行动所需细节;即将执行不可逆操作而未事先获得批准。安全训练使用公共安全数据集和符合微软负责任AI政策的内部任务。在MagenticLite中,所有代理动作都被记录并可审计。沙盒浏览器也在代理和用户机器之间提供安全边界。
其他基准:在WebVoyager上,Fara1.5-27B得分为88.6%,9B为86.6%,4B为80.8%。9B也超过了类似大小的MolmoWeb 8B、GUI-Owl-1.5 8B和Holo2 8B。所有Fara1.5评估运行都使用Browserbase来稳定会话并减少会话级阻塞。数字是三次独立运行的平均值。在WebTailBench v1.5上(针对长尾网络任务),Fara1.5-9B的过程成功率为64.5%,结果成功率为32.3%。GPT-5.4在同一基准上的过程成功率为79.6%,结果成功率为57.4%。
总结:Fara1.5在多个基准上展示了领先性能,其合成数据流水线和安全机制为浏览器自动化代理设定了新标准。