AI News HubLIVE
站内改写8 分で読了

AgentOps:Amazon Bedrock AgentCore を使用した大規模なエージェンティック AI の運用

エージェンティック AI ソリューションを構築する際、エージェントの予測不可能な意思決定、コストの予期せぬ上昇、非決定論的な障害のデバッグといった独自の運用上の課題に直面します。AgentOps は、本番環境で AI エージェントをデプロイ、管理、継続的に改善するための運用規律です。この記事では、Amazon Bedrock AgentCore を使用して AgentOps を実装する方法を紹介し、ガバナンスとセキュリティ、構築と運用、評価、可観測性の 4 つの柱について説明し、リファレンスアーキテクチャと実践ガイドを提供します。

ソースAWS Machine Learning Blog著者: Anastasia Tzeveleka

エージェンティック AI ソリューションを構築する場合、独自の運用上の課題に直面します。エージェントは予測不可能な意思決定を行い、コストが予期せず急騰し、非決定論的な障害のデバッグは不可能に思えます。エージェンティック AI アプリケーションは所定のワークフローを実行するだけではありません。推論、適応、自律的な意思決定を行うため、DevOps プラクティスを適応させる必要があります。ここで AgentOps の出番です。これは、本番環境で AI エージェントをデプロイ、管理、継続的に改善するための運用規律です。

本ブログシリーズの最初のパートでは、生成 AI ワークロードを運用化する方法を紹介しました。この記事では、エージェンティック AI ワークロードの本番環境へのパスを加速し、エージェントとツールの品質をチェックし、Amazon Bedrock AgentCore を使用して AgentOps を実装することで組織内でのエージェンティック AI の採用を促進する方法を示します。ガバナンスとセキュリティ、構築と運用、評価、可観測性という 4 つの柱にわたる実際の実装からのベストプラクティスについて説明します。また、AWS サービス、人材、プロセスがどのように連携して、組織に合わせて適応できるリファレンスアーキテクチャになるかも示します。

この記事は運用に焦点を当てており、エージェントの設計には焦点を当てていないことに注意してください。実装例では Amazon Bedrock AgentCore と関連 AWS サービスを使用していますが、説明する原則は広く適用できます。リファレンスアーキテクチャは出発点です。組織の要件に応じて適応方法が決まります。

AgentOps の 4 つの柱

この記事では、AgentOps の各柱に関するベストプラクティスと実践的な学習事項を扱います。

  • ガバナンスとセキュリティ:マルチアカウント戦略、確定的制御、推論制御、ヒューマンインザループを使用して、エージェントが承認された境界内で動作し、すべてのアクションがトレース可能であることを確認します。
  • 構築と運用:すべてのエージェント、ツール、メモリ設定を、独自の CI/CD パイプラインを持つバージョン管理されたデプロイ可能なアーティファクトとして扱います。
  • 評価:ツール、会話ターン、セッション結果、システムの 4 つのレベルで、開発環境と本番環境の両方で評価します。
  • 可観測性とモニタリング:4 つのテレメトリ層にわたって計装し、すべてのエージェントの決定をトレースし、品質低下を監視し、インタラクションごとのコストを追跡できるようにします。

Amazon Bedrock AgentCore は、これらの柱を個別にまたは組み合わせて実装するためのコンポーネントを提供します。これは、効果的なエージェントを安全に大規模に構築、デプロイ、運用するための AWS のエージェンティック AI プラットフォームです。AgentCore は任意のオープンソースフレームワークおよび任意の大規模言語モデル(LLM)と連携し、インフラストラクチャを管理することなくローカル開発から本番環境に移行できます。

AWS での AgentOps ライフサイクル

他のソフトウェアソリューションと同様に、エージェントはアイデアから本番環境までの開発ライフサイクルに従い、その進行は決して終わりません。エージェントはすべての段階で継続的な運用上の注意と改善を必要とします。以下では、エージェンティック AI が DevOps パイプラインの各段階(計画、開発、構築、テスト、デプロイとリリース、保守と監視)にどのように影響するかをマッピングしました。

| DevOps 段階 | AgentOps の考慮事項 | |------------|-----------------| | 計画 | AI 適合性、リスク、倫理を評価。法的/コンプライアンス承認を取得、パフォーマンス指標を確立、データを準備。人間による監視ポイント、ツール権限、エージェント信頼モデル、エージェント間認証、初期エージェント設計を定義 | | 開発 | 実験とモデル選択、評価、RAG/プロンプト、チャンキング戦略、ガードレール。オーケストレーション、メモリ、状態、ツールレジストリ/ディスカバリ、MCP ツール、エージェント間(A2A)、エージェント ID、エージェント評価、認証パターン | | 構築 | 単体/統合/セキュリティ/エージェントテスト、プリプロダクションにデプロイ。ワークフローテスト、ツールチェーン検証。RBAC 検証 | | テストとリリース | 品質、パフォーマンス、エンドツーエンド、セキュリティテストを実行。AI に関する考慮事項を含むリリースノートを更新。実行パス評価エンドツーエンド目標、ループ制限、HITL テスト、不正なエージェントアクション。 | | デプロイ | ソリューションを本番環境にデプロイ。MCP サーバー、ツールをデプロイ。同時実行性、最小権限、エージェントエンドポイントのネットワーキング。ロールバック戦略、カナリアデプロイ、またはトラフィック管理を構成 | | 保守と監視 | 品質、ガードレール、レイテンシ、スループット、責任ある AI、エラー、使用状況とコストを追跡。ユーザーフィードバック。トレース/スパン監視、ドリフト、アラート、アクション監査証跡、異常検出、エージェントエンドツーエンドコールのガードレール |

これらの柱は、ライフサイクルのどこにいても適用されます。責任ある AI の観点からは、全体を通して体系的なリスク管理が必要です。「エージェンティック AI セキュリティスコーピングマトリックス:自律型 AI システムを保護するためのフレームワーク」は、リスクの特定と管理に役立ちます。

ソリューション概要

次のリファレンスアーキテクチャは、柱、ライフサイクル、人材、プロセス、AWS サービスがどのように接続されるかを示しています。ステップバイステップで見ていきましょう。

計画とセットアップ

プロダクトオーナーは、集中カタログにユースケースを登録します。法務およびコンプライアンスチームがリスクを評価し、ガイダンスを提供します。 ユースケースが承認されると、プロダクトオーナーはドメインエキスパートおよび技術チームと協力して、範囲、成功指標、評価用のテストプロンプトを確立します。 プラットフォームエンジニアは、IaC を使用して環境をデプロイし、セキュリティチームと合意したアクセス制御と、ガバナンスおよびコスト追跡のためのタグ付けを行います。

開発

開発者とデータサイエンティストは、シードコードを含むエージェント、アプリケーション、ツールリポジトリを作成し、構築を開始します。共有 AgentCore Gateway の背後にある承認済みツールと、AWS Registry の背後にあるエージェントを使用できます。新しいツールまたは MCP サーバーのリクエストは、プロダクトオーナー、プラットフォームチーム、法務部門の承認を得る必要があります。 データエンジニアは、開発およびテスト用のデータセットと評価セットを作成します。 開発者は、ツール選択の正確性、マルチステップ推論の検証、会話の一貫性、メモリの永続性を含む手動および自動評価を実行します。ドメインエキスパートが結果をレビューし、フィードバックを提供します。 実験結果は開発中にローカルで追跡され、その後共有アカウントに同期されて集中追跡とチーム間比較が可能になります。 開発者は main にマージし、デプロイパイプラインをトリガーします。

構築とデプロイパイプライン

CI/CD パイプラインはリリースブランチを作成し、ECR を介した AgentCore Runtime へのエージェントデプロイを含むリソースをプリプロダクションにデプロイし、評価パイプラインをトリガーします。RAG 実装の場合、インジェストパイプラインはデータガバナンスアカウントにデプロイします。 プリプロダクションでは、統合、パフォーマンス、UAT、回帰、生成 AI 評価テストが実行され、認証フロー、ユーザーコンテキスト伝播、ツールアクセスの承認検証が含まれます。 QA エンジニアとドメインエキスパートは、確立された指標に対して検証し、本番環境への昇格を承認します。

本番デプロイと運用

ソリューションは本番環境にデプロイされます。本番テレメトリ、ユーザーフィードバック、パフォーマンス指標は継続的改善のために計画にフィードバックされます。 エージェントは Agent Discovery API に登録され、再利用とエージェント間コラボレーションが可能になります。 エンドユーザーはアプリケーションと対話し、フィードバックを提供します。AgentCore 可観測性ダッシュボードは、決定トレース、ツール呼び出しパターン、レイテンシ、エラー、メモリ使用量、インタラクションごとのコストを追跡します。

柱 1:ガバナンスとセキュリティ

エージェントシステムでは、単一のユーザーリクエストが階層チェーン全体に広がったり、複数のエージェントがユーザーに代わって行動するコラボレーションスウォームをトリガーしたりする可能性があります。ユーザーとエージェントの間の各インタラクションは厳密に制御する必要があります。エージェント A がエージェント B を呼び出すとき、どのエージェントがどのアクションを実行する権限があるかについて曖昧さが生じる可能性があります。制限付き権限を持つユーザーがエージェントをトリガーした場合、そのエージェントはそれらの制限を継承する必要があります。この曖昧さは、より深い呼び出しチェーンではさらに悪化します。エージェントに誰がアクセスできるか、エージェントがどのデータ、ツール、API にアクセスできるか、誰がこれらの権限を承認できるか、問題が発生した場合に何が起こるかについて、厳格なガバナンスが必要です。

次の図は、エージェントがリクエストを処理する際の各ステップで行うべきセキュリティ上の決定を示しています。ユーザーの入力は環境を通ってエージェントに流れ、エージェントはツールとメモリを使用して出力を生成します。アプリケーションは、ユーザーの ID、エージェントを呼び出すことが許可されているかどうか、エージェントが要求されたコンテキスト、メモリ、ツール(特定のパラメータ付き)にアクセスできるかどうかを検証します。また、入力が安全であること、およびエージェントが特定の出力を返す権限があることを検証します。

エージェントが明確に定義された境界内で動作し、監査可能性を維持するのに役立つ層状のセキュリティアプローチを実現するには、次の次元を考慮する必要があります。

マルチアカウントアーキテクチャ

AgentOps は GenAIOps の拡張であり、MLOps が DevOps の拡張であるのと同じです。パート 1:GenAIOps に従った場合、同じ設計原則が AgentOps にも適用されます。組織の分離にはマルチアカウント戦略を採用し、Service Control Policies (SCP) を使用してアカウント全体にセキュリティガードレールを設定する必要があります。

次の参照図は、マルチアカウント AWS アーキテクチャを示しています。

  • Amazon Elastic Container Registry (ECR) コンテナイメージ、パイプラインアーティファクト、AWS Secrets Manager、集中監視および認証サービスを備えた共有サービスアカウント。
  • プロデューサーアカウントをデータガバナンスアカウントから分離するデータアカウント。コンプライアンス要件に合わせた分離と知識ベースへの安全なアクセスをサポートします。
  • ビジネスラインまたはアプリケーションチームごとの専用の開発 (dev)、プリプロダクション (pre-prod)、本番 (prod) アプリケーションアカウント。ガバナンスとコスト追跡のためにタグ付けされています。
  • アカウントとリソースは Infrastructure as Code (IaC) を使用してデプロイおよび管理されます。

制御されたモデルアクセス

Amazon Bedrock を使用する場合、SCP および IAM アイデンティティベースのポリシーを使用して、アプリケーションがアクセスできるモデルを制御します。エージェントはこれらのモデルを直接使用するか、LiteLLM などの生成 AI ゲートウェイを介して使用できます。ゲートウェイを使用すると、アクセス制御を集中化し、複数のモデルプロバイダー間でのガバナンス実装を簡素化しながら、ユーザーまたはエージェントごとのレート制限、トークンバジェット、コスト追跡と予算執行、セキュリティポリシーに基づくモデルルーティング、コンプライアンスのための集中監査証跡のための統一 API インターフェイスを提供します。AWS は生成 AI ゲートウェイのデプロイに関するガイダンスを公開しています。当初は簡素化のためにゲートウェイを共有サービスに配置しましたが、個々のエージェントにコストを帰属させるのが困難だったため、アプリケーションアカウントに移行しました。

ID とアクセス制御

AWS Identity and Access Management (IAM) を使用して、きめ細かいアクセス制御を実行できます。さらに、AgentCore Identity を使用すると、エージェント間の認証と承認を管理でき、きめ細かいアクセス制御とエージェント間認証プロトコルにより、システムを介してリクエストが伝播する際にセキュリティ境界を維持できます。詳細については、Amazon Bedrock AgentCore Identity: Securing agentic AI at scale を参照してください。AWS CloudTrail は、包括的な監査ログとフォレンジック分析に使用できます。

データガバナンス

データは複数のタッチポイントを通過します:ユーザー入力(テキスト、添付ファイル)、エージェント指示、出力、アクセスされたデータソース、メモリ操作。それぞれが潜在的なセキュリティリスクを示します。Amazon Bedrock Guardrails を構成して、セーフティポリシーに照らしてユーザープロンプトとモデル応答を評価し、不注意による PII 開示などの脅威から保護します。ガードレールを実装し、生成 AI ゲートウェイと統合するための詳細なセットアップ手順については、Safeguard generative AI applications with Amazon Bedrock Guardrails を参照してください。

上記に加えて、評価データセット(数百の例を含む)のバージョン管理を使用し、RAG 知識ベース内のドキュメントと生成された埋め込みへの変更を体系的に追跡して、評価と監査の要件をサポートします。