PagerDutyインシデントを診断し、Slackに修正案を投稿するAIを構築しました
PulseはClaude AIを使用してPagerDutyインシデントを自動診断し、診断結果と修正案をSlackに投稿します。エンジニアのオンコール負担を軽減することを目的としています。
Pulseは、Claude AIを搭載した自動インシデント対応ツールで、プラットフォームを24時間監視し、PagerDutyのアラートが発生すると即座に対応します。午前3時にアラートが発生した場合、Pulseが代わりに通知を受信し、12,000行以上のログをスキャンし、メトリクスをベースラインと比較し、最新のデプロイと関連付けて、通常1分以内に根本原因を特定します。診断結果は完全なレポートとしてSlackに投稿され、具体的な修正案(特定のバージョンへのロールバックなど)が提示され、ワンクリックで解決または人間のエンジニアにエスカレーションできます。このツールは特に確信度の高い一般的な問題の処理に適しており、チームが夜間に起こされることを大幅に減らします。Pulseは月額125ドルの単一料金プランで、インシデント単位やシート単位の追加料金はなく、現在早期アクセス段階です。Pulseのワークフローは3つのステップで構成されます。まず、PagerDutyがアラートをトリガーすると、Pulseが即座に引き継ぎます。次に、Claude AIがログ、メトリクス、デプロイデータを分析し、症状ではなく根本原因を迅速に特定します。最後に、診断結果と推奨修正がSlackにプッシュされ、エンジニアはワンクリックで解決するか、Pulseが確信を持てない場合はすべてのコンテキストを添付して人間にエスカレーションします。この自動化により、エンジニアの疲労が軽減されるだけでなく、平均修復時間(MTTR)も短縮されます。Pulseの主な強みは、その深い統合能力にあります。PagerDutyのアラートストリームに接続する一方で、AWS CloudWatchやDatadogなどの監視ツールからログやメトリクスを読み取り、GitHubやGitLabのデプロイイベントと関連付けます。これにより、Pulseはどのデプロイが回帰を引き起こしたかを正確に判断できます。例えば、あるシミュレーションでは、Pulseは38秒で12,400行のログをスキャンし、デプロイ#4821が支払いバリデーターにnullチェックの回帰を導入したことを発見しました。エラーはデプロイ後90秒から発生し、新しいコードパスと完全に相関していました。推奨修正は#4820へのロールバックで、信頼度は高とマークされました。さらに、Pulseは継続的な監視ダッシュボードを提供し、プラットフォームの健全性と最終チェック時間を表示します。価格面では、Pulseは月額125ドルのシンプルな固定料金で、インシデントごとやシートごとの課金はなく、1時間のダウンタイムコストよりも安いとされています。現在、Pulseは早期アクセス段階にあり、チームはメールアドレスを登録して招待を待つことができます。PagerDutyとSlackに依存するすべてのエンジニアリングチームにとって、Pulseは夜間のオンコールによる中断を減らし、エンジニアがより重要な作業に集中できるようにする実用的なソリューションを提供します。