AI News HubLIVE
站內改寫1 分鐘閱讀

Show HN:Mirrors – 通過重放真實生產軌跡測試AI代理變更

Mirrors 將生產軌跡轉化為代理環境的隔離副本,讓您在不影響用户的情況下測試變更。它通過確定性回放和工具調用評分,幫助捕獲迴歸、復現錯誤並安全地測試風險流程。

來源Hacker News AI作者: aisinghal

Mirrors 是一款面向 AI 代理的測試工具,能將生產軌跡轉化為一個完全隔離的環境鏡像。通過連接代理的生產跟蹤數據,它自動重建實體、數據庫模式以及所有綁定的工具,並生成一個確定性的鏡像世界——相同的種子和指令會產生字節級一致的結果。

使用方式極其簡單:開發者只需通過瀏覽器登錄,無需任何 API 密鑰。在終端運行一條命令(claude mcp add --transport http mirrors https://api.runmirrors.com/mcp),然後使用 /mcp → mirrors → Authenticate via browser 即可完成認證。隨後即可在一分鐘內獲得一個可運行的鏡像環境。

鏡像的核心能力在於其確定性。每個工具調用都會在隔離的數據庫或 LLM 模擬器上重放,完全避免觸及生產系統。例如,在航空公司客服場景中,get_reservation_details 等工具調用在鏡像中百分百成功,但 issue_refund 等敏感操作則通過 LLM 模擬器安全執行。開發人員可以隨意運行退款、刪除或發送操作,而無需擔心破壞真實數據。

Mirrors 的工作流程分為三步:第一步,從 ADK 或可觀測性平台引入生產軌跡,系統自動發現實體、重建模式並識別所有工具;第二步,構建一個隔離的鏡像,包含種子數據庫和綁定的工具,每個工具都根據其與真實軌跡的匹配程度進行打分;第三步,反覆重放代理,度量準確率,捕獲迴歸問題,並確保變更可以安全上線。

該工具解決了 AI 代理開發中的關鍵痛點:任何錯誤都可以通過相同的種子和指令精確復現;危險的流程可以在隔離環境中測試;迴歸問題可以在代碼部署前被發現。每次構建都可以關聯到特定的記錄世界,並判定通過或失敗。而且,每個運行實例都可以按需啓動,用完即停,按分鐘計費。

對於團隊協作,Mirrors 提供了版本化的 /v1 API 和工作空間密鑰,允許從自有應用中驅動鏡像。免費套餐包含每月 60 沙盒分鐘、無限的鏡像構建和確定性種子。當團隊需要無限沙盒、API 和 SSO 時,可以選擇定製方案。