AI News HubLIVE
站内改写3 分で読了

SREにおけるAI:Googleがエージェント型AIを導入して運用を改善する方法

Google SREチームは、増大するシステム複雑性に対応するため、AIとエージェント技術を全面的に採用しています。本記事では、信頼性設計、異常検知、インシデント管理、インシデント調査、リスク管理など、ソフトウェア開発ライフサイクル全体にわたる機会と、設計原則、インフラストラクチャについて概説します。

ソースHacker News AI著者: geoffbp

Googleのサイトリライアビリティエンジニアリング(SRE)チームは、20年以上にわたりSearch、Gmail、Maps、YouTube、Google Cloudなどのサービスの信頼性と可用性を維持してきました。しかし、AIの出現によりシステム複雑性は飛躍的に増大しています。マイクロサービスアーキテクチャによる地理的分散とハードウェア多様性、エンタープライズクラウド製品の複雑な機能群、グローバルなビジネス要件と規制要件によるトポロジの複雑化、AIコード生成によるコード量の増加と信頼性問題の拡大などが要因です。

AIは課題をもたらす一方で、ソフトウェア開発ライフサイクルを理解し改善する新たな手段も提供します。Google SREはAIとエージェント技術を全面的に採用し、制御を維持しつつAIを力の増幅器として活用する「SRE AI」を推進しています。

SRE AIの機会領域はソフトウェア開発ライフサイクル全体をカバーします。最も明白なのはインシデント調査と緩和(根本原因分析)ですが、それだけではありません。以下に取り組み中の領域を示します。

  • 信頼性設計:設計、ローンチ、デプロイメントの各フェーズでエージェントが問題を自動検出・対処し、人間の関与時間を削減。
  • ランブック(プレイブック):AIエージェントがインシデント時の使用状況に基づいてドキュメントを継続的に監視・改善し、新たなプレイブックを自動生成。
  • 異常検知とアラーティング:従来の静的しきい値に代わり、エージェントがシグナルを収集してTimesFMなどのモデルで異常検知。顧客フィードバックなど外部ソースも活用。異常を検知するとエージェントがアラートをグループ化・エンリッチし、自律的に処理。これによりSREが確認すべきアラート数を大幅に削減。
  • インシデント管理:既存のIMAGプロセス上にエージェントオーケストレーション層を追加。インシデント対応ツールやチャット、ビデオなどコミュニケーション面を監視し、情報を統合・要約。ハンドオフ文書の作成、事後報告書の下書き、内外コミュニケーションを自動化。
  • インシデント調査:エージェントがログ、モニタリング、トレーシングなどの可観測性データとシステムトポロジ・依存関係データを用いてドメイン知識を構築。仮説を形成し、緩和手順を提案。プレイブックの実行、アラーティングへのアクセス、異常検知、インサイト導出を行う個別のエージェントも活用。
  • インサイトとリスク管理:AI Insightsシステムが既知のインシデントを継続的にレビューし、有益な情報を抽出してエージェントに提供。Gemini埋め込みモデルとベクトルデータベースを利用。リスクインサイトシステムは各インシデントにリスクカテゴリを付与し、エージェントとSREの意思決定を支援。

設計上の原則として、既に自動化が成功しているプロセスは置き換えない、AIシステムは既存のポリシーに準拠、セキュリティ・安全性・プライバシーの要件を満たす、エージェントに強力なアイデンティティとロールを付与、高い信頼性SLOとバックアップオプションを確保、行動の理由を説明可能にする、ビジネス継続計画にAI障害の対策を含める、プロダクションデータへの継続的アクセスを確保、品質フレームワークによる評価と監査を実施、などが挙げられます。また、SRE AIシステムは以下の少なくとも1つを達成すべきとされています:エンジニアの反復作業からの解放、意思決定の質とスピードの向上、問題の予防・検知・緩和の改善、自律的なフィードバックループの実現、運用コストの削減。

SRE AIはGoogleの実績あるインフラ上に構築されています。基盤モデルはGeminiとそのファインチューニング版、開発プラットフォームはGemini Enterprise Agent Platform(旧Vertex AI)とAgent Development Kit(ADK)、MCPサーバーは標準APIインフラ上で動作。可観測性インフラ、BigQueryのAI/ML機能、ベクトルデータベースも活用。これらのコンポーネントを統合した自律システムを構築し、その自律度を追跡する手法も開発しています。

詳細はホワイトペーパー「AI in SRE Practice: Moving Beyond Automation at Google」をご覧ください。