AI News HubLIVE
站内改写

Amazon SageMaker AI LLM推理的全面可觀測性:從GPU利用率到LLM質量

本演示展示了使用Amazon Managed Grafana儀表板的全面可觀測性解決方案,為部署在Amazon SageMaker AI端點上的LLM提供質量和數量兩個維度的整體檢視。該方案涵蓋基礎設施指標(如GPU利用率、延遲、成本)和LLM質量指標(如相關性、安全性、語氣),幫助團隊檢測模型退化、最佳化資源並控制成本。

文章情報

工程師進階

要點

  • 可觀測性需要同時監控LLM服務基礎設施(數量)和LLM輸出質量(質量),兩者相互依賴。
  • 亞馬遜CloudWatch集中儲存增強指標(來自SageMaker推理元件)和自定義質量指標。
  • Amazon Managed Grafana儀表板提供GPU利用率、呼叫次數、成本以及質量得分(如相關性、安全性)等視覺化。
  • 透過設定閾值和警報,團隊可以關聯基礎設施與質量訊號,實現生產級LLM可觀測性。

為什麼重要

這條新聞值得關注,因為可觀測性需要同時監控LLM服務基礎設施(數量)和LLM輸出質量(質量),兩者相互依賴。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

在Amazon SageMaker AI推理上大規模部署大型語言模型(LLM)時,可觀測性成為任何生產級機器學習策略的關鍵支柱。與傳統軟體返回確定性輸出不同,LLM生成可變、自由形式的響應,難以用標準指標驗證。LLM輸出質量會隨著輸入分佈的變化而隨時間改變,質量監控有助於及早發現這些變化。對於生成式AI工作負載,可觀測性還包括模型服務基礎設施,其中不可預測的token消耗、GPU記憶體壓力和延遲峰值使容量規劃和成本控制成為移動目標。

一個全面的LLM推理可觀測性方法必須解決兩個不同但互補的維度:模型服務基礎設施(數量)和LLM質量(質量)。數量監控側重於推理基礎設施的執行健康,跟蹤請求吞吐量和資源利用率。這些指標有助於檢測瓶頸、合理調整計算資源並控制成本。質量監控側重於LLM本身的效能,評估響應準確性、合規性和一致性隨時間的變化。

大多數團隊分階段構建LLM可觀測性。第一階段建立對核心運營指標的可見性,如延遲、錯誤和資源利用率。這些訊號確認推理端點的可靠性。下一階段透過取樣和評估新增LLM質量,揭示模型漂移、退化或生成響應中的意外行為等問題。

當兩個維度都就位後,您可以引入結合基礎設施和質量訊號的閾值和自動警報。隨著時間的推移,實踐擴充套件到跨模型和配置的比較分析,以便持續最佳化成本、效能和輸出質量。數量和質量指標相互依賴:一個端點可能在運營上看似健康,但產生糟糕或不安全的響應;或者它可以提供高質量輸出,但執行效率低下且基礎設施過度配置。當兩個維度同時被監控、關聯並協同最佳化時,生產級LLM可觀測性才真正實現。

本文演示了使用Amazon Managed Grafana儀表板的全面可觀測性解決方案,為部署在Amazon SageMaker AI端點上的LLM提供質量和數量兩個維度的整體檢視。

工作流架構

為了在數量和監控兩個維度上全面可見LLM,我們構建了一個使用三個核心AWS服務的解決方案,每個服務在LLM可觀測性中扮演特定角色。下圖顯示了三個核心元件:Amazon SageMaker AI端點(含推理元件)、Amazon CloudWatch和Amazon Managed Grafana。

Amazon SageMaker AI推理元件作為模型託管層。單個SageMaker AI端點可以託管多個推理元件,每個元件執行不同的LLM(例如,架構圖中的gpt-oss-20b和Qwen2.5-7B-Instruct)。推理元件允許您在共享基礎設施上部署、擴充套件和管理多個模型,同時保持每個模型的隔離,用於流量路由、擴充套件策略和指標屬性。

Amazon CloudWatch作為集中式指標儲存。它從每個推理元件接收兩個不同的資料流:增強指標和自定義質量指標。增強指標由SageMaker AI在端點配置中啟用後自動釋出。這些指標包括例項級、容器級和每GPU維度,為您提供每個模型的呼叫次數、延遲、錯誤率和GPU/CPU利用率的精細可見性。增強指標記錄到/aws/sagemaker/InferenceComponents/名稱空間(例如,/aws/sagemaker/InferenceComponents/gpt-oss-20b)。有關詳細資訊,請參閱Amazon SageMaker AI增強指標文件和增強指標深度部落格文章。

自定義質量指標捕獲LLM輸出質量,如綜合質量得分、安全得分和評估延遲。這些指標釋出到單獨的使用者配置的CloudWatch名稱空間/aws/sagemaker/inference-quality/,將質量訊號與運營指標清晰分離。下表總結了兩個CloudWatch指標名稱空間:

CloudWatch指標名稱空間 捕獲內容 目的 /aws/sagemaker/InferenceComponents/ 增強指標:例項級、容器級和每GPU維度 提供每個模型的呼叫次數、延遲、錯誤率和GPU/CPU利用率的精細可見性 /aws/sagemaker/inference-quality/ 自定義質量指標:綜合質量得分、安全得分和評估延遲 捕獲LLM輸出質量訊號,與運營指標保持清晰分離

Amazon Managed Grafana提供視覺化層,使用CloudWatch作為其原生資料來源。在本文中,我們描述了兩個專用儀表板,顯示SageMaker AI端點LLM數量和質量指標,如下截圖所示。

Grafana數量儀表板顯示每個推理元件的GPU記憶體利用率、CPU使用率和呼叫指標。質量儀表板顯示綜合質量得分、安全得分和質量評估延遲,並在模型之間進行比較,如下圖所示。您可以根據業務或應用程式用例建立新儀表板來擴充套件Grafana儀表板。

監控數量

數量監控為您提供SageMaker AI端點上LLM的運營可見性。沒有它,您可能會丟失流量模式、資源飽和、成本歸屬和擴充套件行為,所有這些都直接影響可用性和支出。對於使用推理元件的多模型端點,數量監控回答了關鍵的運營問題:每個模型服務於多少請求?GPU是合理調整還是過度配置?哪個模型驅動成本?

除了基礎設施指標外,數量監控還幫助您評估LLM推理元件的運營健康和業務影響,涵蓋效能與可靠性、資源利用率以及任何特定於組織的業務指標。這些檢視一起顯示延遲發生在哪裡,成本增長是由流量增加還是GPU分配低效引起,以及擴充套件策略是否適當響應需求。

以下Amazon Managed Grafana儀表板示例將這些數量監控維度應用於三個關鍵領域。第一組面板涵蓋LLM呼叫和延遲。如下示例Grafana儀表板輸出所示,面板顯示模型延遲作為時間序列趨勢、模型間總呼叫比較(例如gpt-oss與Qwen)以及每個模型副本的呼叫分解。這些面板幫助操作員瞭解請求吞吐量模式、識別延遲峰值並比較模型副本間的呼叫分佈。

下一組面板關注GPU計算和記憶體利用率。以下Grafana儀表板示例顯示兩個模型(例如Qwen和gpt-oss)的GPU計算百分比和GPU記憶體百分比面板。這種跨模型比較幫助ML工程師和站點可靠性工程師快速確定效能問題是GPU計算受限還是記憶體受限,以及一個模型是否在共享基礎設施上消耗了不成比例的資源。

第三組面板提供端點使用和成本詳細資訊。以下叢集概覽和成本Grafana儀表板示例顯示已用GPU與空閒GPU以及總例項以視覺化叢集容量,同時顯示每個模型的每小時成本(例如gpt-oss和Qwen)。此檢視顯示哪個模型驅動成本,GPU是過度配置還是飽和,以及自動擴充套件策略是否響應需求。

下表總結了Grafana儀表板中涵蓋的三個數量監控領域及其相關指標和目的:

指標型別 儀表板指標名稱 捕獲內容 目的 模型呼叫與延遲 模型延遲、總呼叫(gpt-oss vs Qwen)、每副本呼叫(gpt-oss)、每副本呼叫(Qwen) 請求吞吐量、響應時間和每副本呼叫分佈 識別延遲峰值、比較模型吞吐量、瞭解模型間呼叫負載均衡 GPU計算與記憶體利用率 GPU計算百分比(Qwen)、GPU計算百分比(gpt-oss)、GPU記憶體百分比(Qwen)、GPU記憶體百分比(gpt-oss) 每個模型的GPU計算和記憶體利用率百分比 確定問題是GPU計算受限還是記憶體受限,檢測模型間不成比例的資源消耗 端點使用與成本 已用GPU/空閒GPU/例項、每小時成本(gpt-oss)、每小時成本(Qwen) 叢集容量、GPU分配狀態和每個模型每小時成本歸屬 識別成本驅動因素、檢測過度配置或飽和的GPU、驗證自動擴充套件響應能力

這些儀表板共同為操作員提供了一個單一檢視,以關聯端點上服務的模型之間的成本、容量和利用率。要在您的環境中設定這些儀表板,請遵循AWS samples GitHub儲存庫示例筆記本,並擴充套件解決方案以建立適合您組織要求的儀表板。

監控質量

雖然數量指標告訴您LLM服務基礎設施是否健康,但質量指標告訴您LLM是否仍按預期執行。由於輸入提示分佈的變化、概念漂移或現實世界條件的改變,LLM效能可能隨著時間的推移而悄然下降。與延遲峰值或500錯誤不同,質量退化很少觸發傳統警報。

質量監控透過評估模型輸出在業務重要維度上的表現來解決這個問題:響應質量(與使用者查詢的相關性、事實準確性、完整性和一致性)、安全與合規(有害內容檢測、偏差監控、隱私合規和法規遵守)、使用者體驗質量(有用性、清晰性、適當語氣和多輪對話連貫性)以及領域特定質量(專業領域的技術準確性、檢索增強生成(RAG)應用的引用質量、程式設計助手的程式碼正確性)。這些維度共同幫助治理團隊實施護欄,產品所有者跟蹤面向使用者的質量隨時間的變化,資料科學家確定質量下降是由特定提示模式、模型更新還是資料分佈變化引起的。

以下Amazon Managed Grafana儀表板示例輸出展示了SageMaker AI端點推理元件(例如LLM gpt-oss-20b和Qwen2.5-7B-Instruct)的質量監控。示例儀表板跟蹤四個質量得分,每個顯示為帶有可配置警報閾值(約85%和95%的虛線)的時間序列折線圖。第一個面板顯示綜合質量得分,一個結合質量維度的綜合健康指標。該指標顯示整體質量趨勢隨時間的變化,使得持續退化與可能關聯特定提示型別間歇性質量下降一目瞭然。

第二組面板跟蹤特定的LLM響應質量指標:安全得分、相關性得分和專業語氣得分。安全得分監控有害或不合規內容的檢測。在儀表板輸出中,該得分是四項指標中最穩定的,始終保持在目標閾值範圍內,這表明兩個模型的安全護欄可靠。下一個面板是相關性得分,它測量響應與輸入提示的關聯程度。在示例中,相關性得分顯示出某些波動,兩次顯著下降接近警報閾值,提示需要調查這些下降是否由特定提示模式引起。專業語氣得分評估響應的正式性和適當性,其變化通常與安全性和相關性相關。

透過組合這些面板,團隊可以快速區分是由基礎設施問題還是質量退化引起的問題,並採取糾正措施。例如,如果安全得分下降但延遲正常,可能表明需要改進安全過濾器;如果相關性得分下降伴隨GPU利用率增加,可能表明模型在處理困難提示時產生更長響應但質量更差。質量監控儀表板提供了必要的可見性,以將指標與業務結果關聯並維護LLM驅動的應用的信任。