AI News HubLIVE
站内改写

Amazon SageMaker AI LLM推論の包括的な可観測性:GPU利用率からLLM品質まで

この記事では、Amazon Managed Grafanaダッシュボードを使用した包括的な可観測性ソリューションを紹介します。これにより、Amazon SageMaker AIエンドポイントで推論コンポーネントを使用して提供されるLLMの品質と量の両方を一元的に把握できます。GPU使用率、レイテンシー、コストなどのインフラ指標と、関連性、安全性、トーンなどのLLM品質指標をカバーし、チームがモデルの劣化を検出し、リソースを最適化し、コストを管理できるようにします。

記事インテリジェンス

エンジニア上級

要点

  • LLMの可観測性には、インフラストラクチャ(量)と出力品質(質)の両方を監視する必要があり、これらは相互に依存しています。
  • Amazon CloudWatchは、SageMaker推論コンポーネントからの拡張メトリクスとカスタム品質メトリクスを一元管理します。
  • Amazon Managed Grafanaダッシュボードは、GPU使用率、呼び出し数、コスト、および関連性や安全性などの品質スコアを可視化します。
  • しきい値とアラートにより、インフラと品質のシグナルを組み合わせて、本番環境向けのLLM可観測性を実現します。

重要な理由

このニュースが重要なのは、LLMの可観測性には、インフラストラクチャ(量)と出力品質(質)の両方を監視する必要があり、これらは相互に依存していますためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Amazon SageMaker AI Inferenceで大規模言語モデル(LLM)を大規模にデプロイする場合、可観測性はプロダクション機械学習戦略の重要な柱となります。従来のソフトウェアが決定論的な出力を返すのに対し、LLMは可変で自由形式の応答を生成するため、標準的なメトリクスで検証することが困難です。LLMの出力品質は、入力分布の変化に伴って時間とともに変化する可能性があり、品質モニタリングはこれらの変化を早期に検出するのに役立ちます。生成AIワークロードの場合、可観測性にはモデル推論インフラも含まれ、予測不可能なトークン消費、GPUメモリプレッシャー、レイテンシスパイクにより、キャパシティプランニングとコスト管理が移動目標となります。

LLM推論のための包括的な可観測性アプローチは、2つの異なるが補完的な次元に対処する必要があります:モデル推論インフラ(量)とLLM品質(質)です。量のモニタリングは、推論インフラの運用健全性に焦点を当て、リクエストスループットとリソース使用率を追跡します。これらのメトリクスは、ボトルネックの検出、コンピューティングリソースの適切なサイジング、コスト管理に役立ちます。品質モニタリングは、LLM自体のパフォーマンスに焦点を当て、応答の正確性、コンプライアンス、一貫性を経時的に評価します。

ほとんどのチームは、LLM可観測性を段階的に構築します。第1段階では、レイテンシ、エラー、リソース使用率などのコア運用メトリクスへの可視性を確立します。これらのシグナルは、推論エンドポイントの信頼性を確認します。次の段階では、サンプリングと評価を通じてLLM品質を追加し、モデルドリフト、劣化、または生成された応答の予期しない動作などの問題を表面化します。

両方の次元が整ったら、インフラと品質のシグナルを組み合わせたしきい値と自動アラートを導入できます。時間の経過とともに、このプラクティスはモデルと構成間の比較分析に拡張され、コスト、パフォーマンス、出力品質を継続的に調整できます。量と品質のメトリクスは相互依存しています:エンドポイントは運用上健全に見えても、不十分または安全でない応答を生成する可能性があります。または、高品質の出力を提供しながら、過剰にプロビジョニングされたインフラで非効率的に実行される可能性があります。プロダクショングレードのLLM可観測性は、両方の次元が一緒に監視、相関、最適化されたときに実現します。

この記事では、Amazon Managed Grafanaダッシュボードを使用した包括的な可観測性ソリューションを示し、Amazon SageMaker AIエンドポイントで推論コンポーネントを使用して提供されるLLMの品質と量の両方の全体像を提供します。

ワークフローアーキテクチャ

量と品質の2つの監視次元にわたってLLMを完全に可視化するために、LLM可観測性において特定の役割を果たす3つのコアAWSサービスを使用したソリューションを構築しました。次の高レベルデータフロー図は、3つのコアコンポーネントを示しています:Amazon SageMaker AIエンドポイント(推論コンポーネント付き)、Amazon CloudWatch、Amazon Managed Grafana。

Amazon SageMaker AI推論コンポーネントは、モデルホスティング層として機能します。単一のSageMaker AIエンドポイントは複数の推論コンポーネントをホストでき、それぞれが異なるLLM(たとえば、前述のアーキテクチャに示すgpt-oss-20bとQwen2.5-7B-Instruct)を実行します。推論コンポーネントを使用すると、共有インフラ上で複数のモデルをデプロイ、スケーリング、管理しながら、トラフィックルーティング、スケーリングポリシー、メトリクス属性のためのモデルごとの分離を維持できます。

Amazon CloudWatchは、集中型メトリクスストアとして機能します。各推論コンポーネントから2つの異なるデータストリーム(拡張メトリクスとカスタム品質メトリクス)を受信します。拡張メトリクスは、エンドポイント構成で有効にするとSageMaker AIによって自動的に公開されます。これらのメトリクスには、インスタンスレベル、コンテナレベル、GPUごとのディメンションが含まれ、モデルごとの呼び出し数、レイテンシ、エラー率、GPU/CPU使用率を詳細に可視化できます。拡張メトリクスは、/aws/sagemaker/InferenceComponents/名前空間(例:/aws/sagemaker/InferenceComponents/gpt-oss-20b)に記録されます。詳細については、Amazon SageMaker AI拡張メトリクスのドキュメントと拡張メトリクスの詳細ブログ記事を参照してください。

カスタム品質メトリクスは、LLM出力品質(複合品質スコア、安全性スコア、評価レイテンシなど)をキャプチャします。これらは、個別のユーザー設定のCloudWatch名前空間/aws/sagemaker/inference-quality/に公開され、品質シグナルを運用メトリクスから明確に分離します。次の表は、2つのCloudWatchメトリクス名前空間をまとめたものです。

CloudWatchメトリクス名前空間 キャプチャ内容 目的 /aws/sagemaker/InferenceComponents/ 拡張メトリクス:インスタンスレベル、コンテナレベル、GPUごとのディメンション モデルごとの呼び出し数、レイテンシ、エラー率、GPU/CPU使用率の詳細な可視化 /aws/sagemaker/inference-quality/ カスタム品質メトリクス:複合品質スコア、安全性スコア、評価レイテンシ LLM出力品質シグナルをキャプチャし、運用メトリクスから明確に分離

Amazon Managed Grafanaは、CloudWatchをネイティブデータソースとして使用する可視化レイヤーを提供します。この記事では、SageMaker AIエンドポイントLLMの量と品質のメトリクスを表示する2つの専用ダッシュボードについて説明します。次のスクリーンショットに示されています。

Grafana量ベースのダッシュボードは、推論コンポーネントごとにGPUメモリ使用率、CPU使用率、呼び出しメトリクスを表示します。品質ベースのGrafanaダッシュボードは、複合品質スコア、安全性スコア、品質評価レイテンシを表示し、モデル間で比較します。次の画像に示されています。ビジネスまたはアプリケーションのユースケースに基づいて新しいダッシュボードを作成することで、Grafanaダッシュボードを拡張できます。

量のモニタリング

量のモニタリングは、SageMaker AIエンドポイントで提供されるLLMの運用可視性を提供します。これがないと、トラフィックパターン、リソース飽和、コスト属性、スケーリング動作を見失う可能性があり、これらはすべて可用性と支出に直接影響します。推論コンポーネントを使用するマルチモデルエンドポイントの場合、量のモニタリングは重要な運用上の質問に答えます:各モデルが処理するリクエスト数は?GPUは適切にサイジングされているか、過剰プロビジョニングされているか?どのモデルがコストを牽引しているか?

インフラメトリクスに加えて、量のモニタリングは、パフォーマンスと信頼性、リソース使用率、および組織固有のビジネスメトリクスにわたって、LLM推論コンポーネントの運用健全性とビジネスへの影響を評価するのに役立ちます。これらのビューを組み合わせると、レイテンシがどこで発生しているか、コスト増加がトラフィック成長によるものか非効率的なGPU割り当てによるものか、スケーリングポリシーが需要に適切に応答しているかがわかります。

以下のAmazon Managed Grafanaダッシュボードサンプルは、これらの量のモニタリング次元を3つの主要領域にわたって実践しています。最初のパネルグループは、LLM呼び出しとレイテンシをカバーしています。次のサンプルGrafanaダッシュボード出力に示すように、パネルはモデルレイテンシを時系列トレンドとして、モデル間の総呼び出し数(例:gpt-oss対Qwen)、およびモデルごとのコピーあたりの呼び出し数を表示します。これらのパネルは、オペレーターがリクエストスループットパターンを理解し、レイテンシスパイクを特定し、モデルコピー間の呼び出し分布を比較するのに役立ちます。

次のパネルグループは、GPUコンピューティングとメモリ使用率に焦点を当てています。以下のGrafanaダッシュボードサンプルは、両方のモデル(例:Qwenとgpt-oss)のGPUコンピューティングパーセンテージとGPUメモリパーセンテージのパネルを示しています。このクロスモデル比較は、MLエンジニアとサイト信頼性エンジニアが、パフォーマンスの問題がGPUコンピューティング制約によるものかメモリ制限によるものか、また共有インフラ上で一方のモデルが不均衡にリソースを消費しているかを迅速に判断するのに役立ちます。

3番目のパネルグループは、エンドポイント使用状況とコストの詳細を提供します。以下のクラスタ概要とコストGrafanaダッシュボードサンプルは、使用済みGPU対空きGPUと総インスタンス数を表示してクラスタ容量を可視化し、モデルごとの時間あたりコスト(例:gpt-ossとQwen)とともに表示します。このビューは、どのモデルがコストを牽引しているか、GPUが過剰プロビジョニングまたは飽和しているか、自動スケーリングポリシーが需要に応答しているかを示します。

次の表は、Grafanaダッシュボードでカバーされている3つの量のモニタリング領域とそれに関連するメトリクスおよび目的をまとめたものです:

メトリクスタイプ ダッシュボードメトリクス名 キャプチャ内容 目的 モデル呼び出しとレイテンシ モデルレイテンシ、総呼び出し数(gpt-oss vs Qwen)、コピーあたり呼び出し数(gpt-oss)、コピーあたり呼び出し数(Qwen) リクエストスループット、応答時間、コピーあたり呼び出し分布 レイテンシスパイクの特定、モデルスループットの比較、コピー間の呼び出し負荷分散の理解 GPUコンピューティングとメモリ使用率 GPUコンピューティング%(Qwen)、GPUコンピューティング%(gpt-oss)、GPUメモリ%(Qwen)、GPUメモリ%(gpt-oss) モデルごとのGPUコンピューティングおよびメモリ使用率のパーセンテージ 問題がGPUコンピューティング制約かメモリ制限かを判断し、モデル間の不均衡なリソース消費を検出 エンドポイント使用状況とコスト 使用済みGPU / 空きGPU / インスタンス、時間あたりコスト(gpt-oss)、時間あたりコスト(Qwen) クラスタ容量、GPU割り当てステータス、モデルごとの時間あたりコスト属性 コストドライバーの特定、過剰プロビジョニングまたは飽和したGPUの検出、自動スケーリングの応答性検証

これらのダッシュボードは、オペレーターにエンドポイントで提供されるモデル間のコスト、容量、使用率を相関させる単一のビューを提供します。これらのダッシュボードを環境に設定するには、AWS samples GitHubリポジトリのサンプルノートブックに従い、ソリューションを拡張して組織の要件に合わせたダッシュボードを作成します。

品質のモニタリング

量のメトリクスはLLM推論インフラが健全かどうかを示しますが、品質メトリクスはLLMが期待通りに動作しているかどうかを示します。LLMのパフォーマンスは、入力プロンプト分布の変化、概念ドリフト、または現実世界の条件の変化により、時間の経過とともに静かに低下する可能性があります。レイテンシスパイクや500エラーとは異なり、品質低下は従来のアラートをほとんどトリガーしません。

品質モニタリングは、ビジネスにとって重要な次元にわたってモデル出力を評価することでこれに対処します:応答品質(ユーザークエリへの関連性、事実の正確性、完全性、一貫性)、安全性とコンプライアンス(有害コンテンツの検出、バイアスの監視、プライバシーコンプライアンス、規制遵守)、ユーザーエクスペリエンス品質(有用性、明確さ、適切なトーン、マルチターン会話の一貫性)、およびドメイン固有品質(専門分野の技術的正確性、検索拡張生成(RAG)アプリケーションの引用品質、プログラミングアシスタントのコード正確性)。これらの次元は、ガバナンスチームがガードレールを実施し、プロダクトオーナーがユーザー向けの品質の経時変化を追跡し、データサイエンティストが品質低下が特定のプロンプトパターン、モデル更新、またはデータ分布の変化によって引き起こされているかを特定するのに役立ちます。

以下のAmazon Managed Grafanaダッシュボードサンプル出力は、SageMaker AIエンドポイント推論コンポーネント(例えば、LLM gpt-oss-20bとQwen2.5-7B-Instruct)全体の品質モニタリングを示しています。サンプルダッシュボードは、4つの品質スコアを追跡し、それぞれが設定可能なアラートしきい値(約85%と95%の破線で表示)を持つ時系列折れ線グラフとして表示されます。最初のパネルは複合品質スコアを示し、品質次元を組み合わせた総合健全性指標です。このメトリクスは全体的な品質トレンドを経時的に表示し、持続的な低下と、特定のプロンプトタイプと相関する可能性のある断続的な品質低下を簡単に見分けられます。

2番目のパネルグループは、特定のLLM応答品質メトリクスを追跡します:安全性スコア、関連性スコア、プロフェッショナルトーンスコア。安全性スコアは、有害または非準拠コンテンツの検出を監視します。ダッシュボード出力では、このスコアは4つのメトリクスの中で最も安定しており、一貫して目標しきい値帯域内に留まっており、両方のモデルで信頼性の高い安全ガードレールを示しています。次のパネルは関連性スコアで、応答が入力プロンプトにどの程度関連しているかを測定します。この例では、関連性スコアはある程度の変動を示し、2回の顕著な低下がアラートしきい値に近づいており、これらの低下が特定のプロンプトパターンによって引き起こされているかどうか調査が必要であることを示しています。プロフェッショナルトーンスコアは、応答の形式と適切性を評価し、その変動は安全性と関連性と相関することがよくあります。

これらのパネルを組み合わせることで、チームは問題がインフラ問題によるものか品質低下によるものかを迅速に区別し、是正措置を講じることができます。たとえば、安全性スコアが低下してもレイテンシが正常な場合、安全フィルターの改善が必要である可能性があります。関連性スコアが低下し、GPU使用率が増加している場合、モデルが困難なプロンプトを処理する際に長い応答を生成しているが品質が低下している可能性があります。品質モニタリングダッシュボードは、メトリクスをビジネス結果と関連付け、LLM駆動アプリケーションへの信頼を維持するために必要な可視性を提供します。