Microsoft Fara 教程:在 Google Colab 中使用模拟 OpenAI 兼容端点运行浏览器使用代理
本教程详细介绍了如何在 Google Colab 中设置 Microsoft Fara 并运行一个完整的浏览器使用工作流程。通过创建模拟 OpenAI 兼容端点,无需依赖真实模型即可测试代理循环。教程涵盖了环境搭建、端点配置、Playwright 安装及实际运行 Fara CLI 的完整步骤,并提供了切换到真实 Fara-7B 部署的多种方案。
本教程将指导您如何在 Google Colab 环境中部署 Microsoft Fara,并从头到尾运行一个浏览器使用工作流程。整个过程无需 GPU 资源,通过一个轻量级的模拟 OpenAI 兼容端点来测试代理循环,从而在无真实模型的情况下验证整个流水线的正确性。
首先,我们克隆 Microsoft Fara 的官方仓库到 Colab 环境。如果仓库已存在,则拉取最新更新。接着,安装 Fara 包及其依赖项,包括 FastAPI、Uvicorn、Requests 和 Pillow,同时安装 Playwright 的 Firefox 浏览器支持,以便代理能够控制浏览器执行动作。
安装完成后,我们检查 Fara 包的结构,确保能够正确导入。我们尝试加载 Fara 的动作定义(FARA_ACTION_DEFINITIONS),即使导入路径发生变化,教程也能继续运行。这一步虽然可选,但有助于理解代理能执行哪些浏览器操作。
为了模拟真实模型的行为,我们编写了一个简单的 FastAPI 服务器,它提供与 OpenAI 兼容的聊天完成端点。该模拟端点在第一次调用时返回访问 example.com 的动作,第二次调用时返回终止动作,从而模拟完整的代理循环。我们将这个服务器的代码保存为 mock_fara_endpoint.py,并创建相应的端点配置文件。
启动模拟端点后,我们使用 Fara CLI 工具运行代理,指定任务为“打开 example.com 并告诉我页面上有什么”。如果 CLI 命令失败,我们尝试以模块形式运行。代理执行过程中,我们会看到它通过浏览器访问目标页面,并最终输出结果。
教程的末尾提供了如何从模拟模式切换到真实 Fara-7B 部署的详细说明。我们列出了三种选项:使用 Azure Foundry 端点、在 GPU 机器上自托管 vLLM、或者通过 LM Studio 或 Ollama 本地运行模型。无论哪种方式,只需修改配置文件中的 base_url 和 api_key 即可。
需要注意的是,浏览器代理应仅在沙盒环境中测试,避免涉及私人账户、支付、凭证和高风险网站。通过本教程,您可以在 Colab 中完整地体验 Fara 的浏览器控制流水线,并为实际部署做好准备。