Show HN:Mirrors – 通过重放真实生产轨迹测试AI代理变更
Mirrors 将生产轨迹转化为代理环境的隔离副本,让您在不影响用户的情况下测试变更。它通过确定性回放和工具调用评分,帮助捕获回归、复现错误并安全地测试风险流程。
Mirrors 是一款面向 AI 代理的测试工具,能将生产轨迹转化为一个完全隔离的环境镜像。通过连接代理的生产跟踪数据,它自动重建实体、数据库模式以及所有绑定的工具,并生成一个确定性的镜像世界——相同的种子和指令会产生字节级一致的结果。
使用方式极其简单:开发者只需通过浏览器登录,无需任何 API 密钥。在终端运行一条命令(claude mcp add --transport http mirrors https://api.runmirrors.com/mcp),然后使用 /mcp → mirrors → Authenticate via browser 即可完成认证。随后即可在一分钟内获得一个可运行的镜像环境。
镜像的核心能力在于其确定性。每个工具调用都会在隔离的数据库或 LLM 模拟器上重放,完全避免触及生产系统。例如,在航空公司客服场景中,get_reservation_details 等工具调用在镜像中百分百成功,但 issue_refund 等敏感操作则通过 LLM 模拟器安全执行。开发人员可以随意运行退款、删除或发送操作,而无需担心破坏真实数据。
Mirrors 的工作流程分为三步:第一步,从 ADK 或可观测性平台引入生产轨迹,系统自动发现实体、重建模式并识别所有工具;第二步,构建一个隔离的镜像,包含种子数据库和绑定的工具,每个工具都根据其与真实轨迹的匹配程度进行打分;第三步,反复重放代理,度量准确率,捕获回归问题,并确保变更可以安全上线。
该工具解决了 AI 代理开发中的关键痛点:任何错误都可以通过相同的种子和指令精确复现;危险的流程可以在隔离环境中测试;回归问题可以在代码部署前被发现。每次构建都可以关联到特定的记录世界,并判定通过或失败。而且,每个运行实例都可以按需启动,用完即停,按分钟计费。
对于团队协作,Mirrors 提供了版本化的 /v1 API 和工作空间密钥,允许从自有应用中驱动镜像。免费套餐包含每月 60 沙盒分钟、无限的镜像构建和确定性种子。当团队需要无限沙盒、API 和 SSO 时,可以选择定制方案。