AI News HubLIVE
サイト内リライト2 分で読了

Show HN:Mirrors – 本番トレースを再生してAIエージェントの変更をテスト

Mirrors は本番トレースを隔離されたエージェント環境に変換し、ユーザーに影響を与えずに変更をテストできるようにします。決定論的なリプレイとツールコールのスコアリングにより、リグレッションの捕捉、バグの再現、リスクの高い操作の安全なテストを実現します。

ソースHacker News AI著者: aisinghal

Mirrors は、AI エージェント向けのテストツールで、本番トレースを完全に隔離された環境ミラーに変換します。エージェントの本番トレースデータを接続するだけで、自動的にエンティティ、データベーススキーマ、およびすべてのバインディングされたツールを再構築し、決定論的なミラーワールドを生成します(同じシードと命令でバイトレベルの一致を保証)。

セットアップは非常に簡単で、開発者はブラウザ経由でログインするだけでよく、APIキーは不要です。ターミナルで claude mcp add --transport http mirrors https://api.runmirrors.com/mcp を実行し、/mcp → mirrors → Authenticate via browser で認証を完了すれば、1分以内に実行可能なミラー環境を取得できます。

ミラーの核となる機能はその決定論性です。各ツールコールは隔離されたデータベースまたはLLMシミュレーター上でリプレイされ、本番システムに一切触れません。例えば、航空会社のカスタマーサポートシナリオでは、get_reservation_details などのツールコールはミラー内で100%成功しますが、issue_refund のようなセンシティブな操作はLLMシミュレーターで安全に実行されます。開発者は返金、削除、送信などの操作を自由に実行でき、実際のデータを壊す心配がありません。

Mirrors のワークフローは3つのステップで構成されます。第1に、ADKまたは可観測性プラットフォームから本番トレースを取り込み、システムが自動的にエンティティを発見、スキーマを再構築し、すべてのツールを特定します。第2に、シードデータベースとバインディングされたツールを含む隔離ミラーを構築し、各ツールは実際のトレースとの一致度に応じてスコア付けされます。第3に、エージェントを繰り返しリプレイして精度を測定し、リグレッションを捕捉し、変更を安全に本番投入できることを確認します。

このツールは、AIエージェント開発における重要な課題を解決します。同じシードと命令で任意のバグを正確に再現可能で、危険なフローを隔離環境でテストでき、リグレッションをコードデプロイ前に発見できます。各ビルドは特定の記録ワールドに関連付けられ、合格・不合格が判定されます。各実行インスタンスはオンデマンドで起動でき、使用後は停止され、分単位で課金されます。

チームコラボレーションのために、Mirrors はバージョン管理された /v1 API とワークスペースキーを提供し、独自のアプリケーションからミラーを駆動できます。無料プランには毎月60のサンドボックス分、無制限のミラービルド、決定論的シードが含まれます。チームが無制限のサンドボックス、API、SSOを必要とする場合は、カスタムプランで対応します。