2026-05-22 16:32 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

微软发布Fara1.5：浏览器计算机使用代理家族（4B/9B/27B）在Online-Mind2Web上超越OpenAI Operator和Gemini 2.5计算机使用

微软研究院发布了Fara1.5，这是一个浏览器计算机使用代理模型家族，包括4B、9B和27B三种规模。其中Fara1.5-27B在Online-Mind2Web基准测试中达到72%的任务成功率，超过了OpenAI Operator（58.3%）和Gemini 2.5 Computer Use（57.3%）。该发布还包含了FaraGen1.5，一个用于生成训练轨迹的合成数据流水线。

来源MarkTechPost作者: Asif Razzaq

微软研究院AI前沿实验室发布了Fara1.5，这是一个用于浏览器的计算机使用代理（CUA）模型家族。此次发布包含三种规模：Fara1.5-4B、Fara1.5-9B和Fara1.5-27B。这些模型集成了MagenticLite，这是微软为这些代理提供的沙盒浏览器界面。

计算机使用代理是一种像素到动作模型，能够驱动真实浏览器。它们读取屏幕截图并发出鼠标和键盘操作以完成任务。最近的产品如OpenAI的Operator和Google的Gemini 2.5 Computer Use都属于这一类别。

Fara1.5-27B在Online-Mind2Web基准测试中达到了72%的任务成功率。该基准涵盖了136个流行网站上的300个任务。在相同的评估中，OpenAI的Operator得分为58.3%，Gemini 2.5 Computer Use得分为57.3%。Yutori的Navigator n1达到了64.7%，而Fara1.5-9B得分为63.4%。这几乎是前代Fara-7B（在同一基准上得分为34.1%）的两倍。

架构与代理循环：这些模型使用Qwen3.5基础检查点，分别有4B、9B和27B变体。它们通过“观察-思考-行动”循环运行。在每个步骤中，模型接收之前的对话历史和最近的三张浏览器截图，然后输出思考结果和下一个动作。动作空间包括标准鼠标键盘输入以及网络搜索等网络特定动作，还包含用于上下文管理的元动作，例如记忆事实供以后使用或向用户提出澄清问题。这些元动作使代理能够在更长时间范围内操作并与用户协作。

训练组合：训练使用约200万个样本进行监督微调。其中60%为网络轨迹，12.8%为合成环境。表单填写和用户交互占12.5%，接地占8.8%，VQA占4.9%。较小部分涵盖GUI拖拽、指令遵循和安全。损失仅应用于每个轨迹的最后三个轮次。

FaraGen1.5合成数据流水线：FaraGen1.5是生成训练轨迹的合成流水线，包含三个模块化组件：环境、求解器和验证器。环境分为两种类型：开放网络任务在无需登录的实时网站上运行；受限领域任务需要认证会话或执行不可逆操作（如发送邮件）。对于受限领域，团队构建了六个合成克隆体，称为FaraEnvs，涵盖邮件、日历、流媒体、机器学习、住宿和日程安排。每个克隆体具有逼真的前端、完全功能的API和基于角色数据的数据库。这些环境使用GitHub Copilot CLI结合人工迭代优化构建。由于团队控制完整堆栈，他们知道每个任务的正确结果。对于改变后端状态的任务，LLM裁判会比较执行前后的数据库快照。不改变状态的任务则根据预先计算的参考答案评分。求解器代理使用OpenAI的GPT-5.4配合自定义工具，这些工具镜像Fara1.5的动作空间。求解器在Online-Mind2Web上使用自动WebJudge得分为83%。之前的Fara-7B求解器在同一评估中得分为67%。当求解器发出ask_user调用或完成任务时，会调用用户模拟器。三个验证器决定哪些轨迹进入训练：正确性（开放网络任务使用LLM生成的规则，合成任务使用特权数据库判断）、效率（惩罚冗余或不必要的动作）以及用户交互验证（检查代理是否在关键点暂停）。

关键点与安全：Fara1.5被训练在三种情况下暂停并询问用户：任务需要用户未提供的个人信息；任务描述模糊或缺少行动所需细节；即将执行不可逆操作而未事先获得批准。安全训练使用公共安全数据集和符合微软负责任AI政策的内部任务。在MagenticLite中，所有代理动作都被记录并可审计。沙盒浏览器也在代理和用户机器之间提供安全边界。

其他基准：在WebVoyager上，Fara1.5-27B得分为88.6%，9B为86.6%，4B为80.8%。9B也超过了类似大小的MolmoWeb 8B、GUI-Owl-1.5 8B和Holo2 8B。所有Fara1.5评估运行都使用Browserbase来稳定会话并减少会话级阻塞。数字是三次独立运行的平均值。在WebTailBench v1.5上（针对长尾网络任务），Fara1.5-9B的过程成功率为64.5%，结果成功率为32.3%。GPT-5.4在同一基准上的过程成功率为79.6%，结果成功率为57.4%。

总结：Fara1.5在多个基准上展示了领先性能，其合成数据流水线和安全机制为浏览器自动化代理设定了新标准。