Amazon SageMaker AI LLM推理的全面可觀測性:從GPU利用率到LLM質量
本演示展示了使用Amazon Managed Grafana儀表板的全面可觀測性解決方案,為部署在Amazon SageMaker AI端點上的LLM提供質量和數量兩個維度的整體視圖。該方案涵蓋基礎設施指標(如GPU利用率、延遲、成本)和LLM質量指標(如相關性、安全性、語氣),幫助團隊檢測模型退化、優化資源並控制成本。
文章情報
要點
- 可觀測性需要同時監控LLM服務基礎設施(數量)和LLM輸出質量(質量),兩者相互依賴。
- 亞馬遜CloudWatch集中存儲增強指標(來自SageMaker推理組件)和自定義質量指標。
- Amazon Managed Grafana儀表板提供GPU利用率、調用次數、成本以及質量得分(如相關性、安全性)等可視化。
- 通過設置閾值和警報,團隊可以關聯基礎設施與質量信號,實現生產級LLM可觀測性。
為甚麼重要
這條新聞值得關注,因為可觀測性需要同時監控LLM服務基礎設施(數量)和LLM輸出質量(質量),兩者相互依賴。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
在Amazon SageMaker AI推理上大規模部署大型語言模型(LLM)時,可觀測性成為任何生產級機器學習策略的關鍵支柱。與傳統軟件返回確定性輸出不同,LLM生成可變、自由形式的響應,難以用標準指標驗證。LLM輸出質量會隨着輸入分佈的變化而隨時間改變,質量監控有助於及早發現這些變化。對於生成式AI工作負載,可觀測性還包括模型服務基礎設施,其中不可預測的token消耗、GPU內存壓力和延遲峯值使容量規劃和成本控制成為移動目標。
一個全面的LLM推理可觀測性方法必須解決兩個不同但互補的維度:模型服務基礎設施(數量)和LLM質量(質量)。數量監控側重於推理基礎設施的運行健康,跟蹤請求吞吐量和資源利用率。這些指標有助於檢測瓶頸、合理調整計算資源並控制成本。質量監控側重於LLM本身的性能,評估響應準確性、合規性和一致性隨時間的變化。
大多數團隊分階段構建LLM可觀測性。第一階段建立對核心運營指標的可見性,如延遲、錯誤和資源利用率。這些信號確認推理端點的可靠性。下一階段通過採樣和評估添加LLM質量,揭示模型漂移、退化或生成響應中的意外行為等問題。
當兩個維度都就位後,您可以引入結合基礎設施和質量信號的閾值和自動警報。隨着時間的推移,實踐擴展到跨模型和配置的比較分析,以便持續優化成本、性能和輸出質量。數量和質量指標相互依賴:一個端點可能在運營上看似健康,但產生糟糕或不安全的響應;或者它可以提供高質量輸出,但運行效率低下且基礎設施過度配置。當兩個維度同時被監控、關聯並協同優化時,生產級LLM可觀測性才真正實現。
本文演示了使用Amazon Managed Grafana儀表板的全面可觀測性解決方案,為部署在Amazon SageMaker AI端點上的LLM提供質量和數量兩個維度的整體視圖。
工作流架構
為了在數量和監控兩個維度上全面可見LLM,我們構建了一個使用三個核心AWS服務的解決方案,每個服務在LLM可觀測性中扮演特定角色。下圖顯示了三個核心組件:Amazon SageMaker AI端點(含推理組件)、Amazon CloudWatch和Amazon Managed Grafana。
Amazon SageMaker AI推理組件作為模型託管層。單個SageMaker AI端點可以託管多個推理組件,每個組件運行不同的LLM(例如,架構圖中的gpt-oss-20b和Qwen2.5-7B-Instruct)。推理組件允許您在共享基礎設施上部署、擴展和管理多個模型,同時保持每個模型的隔離,用於流量路由、擴展策略和指標屬性。
Amazon CloudWatch作為集中式指標存儲。它從每個推理組件接收兩個不同的數據流:增強指標和自定義質量指標。增強指標由SageMaker AI在端點配置中啓用後自動發佈。這些指標包括實例級、容器級和每GPU維度,為您提供每個模型的調用次數、延遲、錯誤率和GPU/CPU利用率的精細可見性。增強指標記錄到/aws/sagemaker/InferenceComponents/命名空間(例如,/aws/sagemaker/InferenceComponents/gpt-oss-20b)。有關詳細信息,請參閲Amazon SageMaker AI增強指標文檔和增強指標深度博客文章。
自定義質量指標捕獲LLM輸出質量,如綜合質量得分、安全得分和評估延遲。這些指標發佈到單獨的用户配置的CloudWatch命名空間/aws/sagemaker/inference-quality/,將質量信號與運營指標清晰分離。下表總結了兩個CloudWatch指標命名空間:
CloudWatch指標命名空間 捕獲內容 目的 /aws/sagemaker/InferenceComponents/ 增強指標:實例級、容器級和每GPU維度 提供每個模型的調用次數、延遲、錯誤率和GPU/CPU利用率的精細可見性 /aws/sagemaker/inference-quality/ 自定義質量指標:綜合質量得分、安全得分和評估延遲 捕獲LLM輸出質量信號,與運營指標保持清晰分離
Amazon Managed Grafana提供可視化層,使用CloudWatch作為其原生數據源。在本文中,我們描述了兩個專用儀表板,顯示SageMaker AI端點LLM數量和質量指標,如下截圖所示。
Grafana數量儀表板顯示每個推理組件的GPU內存利用率、CPU使用率和調用指標。質量儀表板顯示綜合質量得分、安全得分和質量評估延遲,並在模型之間進行比較,如下圖所示。您可以根據業務或應用程序用例創建新儀表板來擴展Grafana儀表板。
監控數量
數量監控為您提供SageMaker AI端點上LLM的運營可見性。沒有它,您可能會丟失流量模式、資源飽和、成本歸屬和擴展行為,所有這些都直接影響可用性和支出。對於使用推理組件的多模型端點,數量監控回答了關鍵的運營問題:每個模型服務於多少請求?GPU是合理調整還是過度配置?哪個模型驅動成本?
除了基礎設施指標外,數量監控還幫助您評估LLM推理組件的運營健康和業務影響,涵蓋性能與可靠性、資源利用率以及任何特定於組織的業務指標。這些視圖一起顯示延遲發生在哪裏,成本增長是由流量增加還是GPU分配低效引起,以及擴展策略是否適當響應需求。
以下Amazon Managed Grafana儀表板示例將這些數量監控維度應用於三個關鍵領域。第一組面板涵蓋LLM調用和延遲。如下示例Grafana儀表板輸出所示,面板顯示模型延遲作為時間序列趨勢、模型間總調用比較(例如gpt-oss與Qwen)以及每個模型副本的調用分解。這些面板幫助操作員瞭解請求吞吐量模式、識別延遲峯值並比較模型副本間的調用分佈。
下一組面板關注GPU計算和內存利用率。以下Grafana儀表板示例顯示兩個模型(例如Qwen和gpt-oss)的GPU計算百分比和GPU內存百分比面板。這種跨模型比較幫助ML工程師和站點可靠性工程師快速確定性能問題是GPU計算受限還是內存受限,以及一個模型是否在共享基礎設施上消耗了不成比例的資源。
第三組面板提供端點使用和成本詳細信息。以下集羣概覽和成本Grafana儀表板示例顯示已用GPU與空閒GPU以及總實例以可視化集羣容量,同時顯示每個模型的每小時成本(例如gpt-oss和Qwen)。此視圖顯示哪個模型驅動成本,GPU是過度配置還是飽和,以及自動擴展策略是否響應需求。
下表總結了Grafana儀表板中涵蓋的三個數量監控領域及其相關指標和目的:
指標類型 儀表板指標名稱 捕獲內容 目的 模型調用與延遲 模型延遲、總調用(gpt-oss vs Qwen)、每副本調用(gpt-oss)、每副本調用(Qwen) 請求吞吐量、響應時間和每副本調用分佈 識別延遲峯值、比較模型吞吐量、瞭解模型間調用負載均衡 GPU計算與內存利用率 GPU計算百分比(Qwen)、GPU計算百分比(gpt-oss)、GPU內存百分比(Qwen)、GPU內存百分比(gpt-oss) 每個模型的GPU計算和內存利用率百分比 確定問題是GPU計算受限還是內存受限,檢測模型間不成比例的資源消耗 端點使用與成本 已用GPU/空閒GPU/實例、每小時成本(gpt-oss)、每小時成本(Qwen) 集羣容量、GPU分配狀態和每個模型每小時成本歸屬 識別成本驅動因素、檢測過度配置或飽和的GPU、驗證自動擴展響應能力
這些儀表板共同為操作員提供了一個單一視圖,以關聯端點上服務的模型之間的成本、容量和利用率。要在您的環境中設置這些儀表板,請遵循AWS samples GitHub存儲庫示例筆記本,並擴展解決方案以創建適合您組織要求的儀表板。
監控質量
雖然數量指標告訴您LLM服務基礎設施是否健康,但質量指標告訴您LLM是否仍按預期運行。由於輸入提示分佈的變化、概念漂移或現實世界條件的改變,LLM性能可能隨着時間的推移而悄然下降。與延遲峯值或500錯誤不同,質量退化很少觸發傳統警報。
質量監控通過評估模型輸出在業務重要維度上的表現來解決這個問題:響應質量(與用户查詢的相關性、事實準確性、完整性和一致性)、安全與合規(有害內容檢測、偏差監控、隱私合規和法規遵守)、用户體驗質量(有用性、清晰性、適當語氣和多輪對話連貫性)以及領域特定質量(專業領域的技術準確性、檢索增強生成(RAG)應用的引用質量、編程助手的代碼正確性)。這些維度共同幫助治理團隊實施護欄,產品所有者跟蹤面向用户的質量隨時間的變化,數據科學家確定質量下降是由特定提示模式、模型更新還是數據分佈變化引起的。
以下Amazon Managed Grafana儀表板示例輸出展示了SageMaker AI端點推理組件(例如LLM gpt-oss-20b和Qwen2.5-7B-Instruct)的質量監控。示例儀表板跟蹤四個質量得分,每個顯示為帶有可配置警報閾值(約85%和95%的虛線)的時間序列折線圖。第一個面板顯示綜合質量得分,一個結合質量維度的綜合健康指標。該指標顯示整體質量趨勢隨時間的變化,使得持續退化與可能關聯特定提示類型間歇性質量下降一目瞭然。
第二組面板跟蹤特定的LLM響應質量指標:安全得分、相關性得分和專業語氣得分。安全得分監控有害或不合規內容的檢測。在儀表板輸出中,該得分是四項指標中最穩定的,始終保持在目標閾值範圍內,這表明兩個模型的安全護欄可靠。下一個面板是相關性得分,它測量響應與輸入提示的關聯程度。在示例中,相關性得分顯示出某些波動,兩次顯著下降接近警報閾值,提示需要調查這些下降是否由特定提示模式引起。專業語氣得分評估響應的正式性和適當性,其變化通常與安全性和相關性相關。
通過組合這些面板,團隊可以快速區分是由基礎設施問題還是質量退化引起的問題,並採取糾正措施。例如,如果安全得分下降但延遲正常,可能表明需要改進安全過濾器;如果相關性得分下降伴隨GPU利用率增加,可能表明模型在處理困難提示時產生更長響應但質量更差。質量監控儀表板提供了必要的可見性,以將指標與業務結果關聯並維護LLM驅動的應用的信任。