免費vLLM課程:推理、壓縮與基準測試
DeepLearning.AI與Red Hat合作推出免費中級課程《使用vLLM實現快速高效的LLM推理》,由Red Hat高階開發者倡導者Cedric Clyburn授課。課程涵蓋量化、vLLM服務部署及基準測試,時長1小時38分鐘,包含9個影片課程、3個程式碼示例和1個評分作業。
DeepLearning.AI與Red Hat合作推出了一門免費課程《使用vLLM實現快速高效的LLM推理》,旨在幫助機器學習工程師、平臺工程師和開發者高效部署開源大語言模型(LLM)。該課程由Red Hat高階開發者倡導者Cedric Clyburn講授,時長1小時38分鐘,包含9個影片課程、3個程式碼示例和1個評分作業,適合具備Python和基本LLM概念(如令牌、推理和GPU使用)的學員。
課程的核心挑戰在於LLM服務中的記憶體管理:模型權重和KV快取競爭GPU記憶體。例如,一個700億引數模型僅權重就需要約140 GB記憶體,而KV快取隨請求增長。學員將學習透過量化壓縮權重,並利用vLLM(一種廣泛採用的開源服務系統)的記憶體管理技術(如PagedAttention和字首快取)來提升效率。
課程覆蓋完整的“最佳化-部署-基準測試”工作流程。學員將使用LLM Compressor對開源Qwen模型進行量化,然後透過vLLM提供服務,最後在模擬真實流量下使用GuideLLM和lm-eval進行基準測試。具體內容包括:理解高效LLM部署的重要性、推理過程、KV快取和GPU記憶體層次結構;探索LLM最佳化基礎,包括權重和啟用量化如何提升吞吐量和延遲;使用LLM Compressor量化模型並評估精度;學習連續批處理、PagedAttention和字首快取三大核心技術;連線vLLM推理伺服器並透過OpenAI相容API傳送請求;以及使用GuideLLM和lm-eval進行負載測試和質量評估。
課程結束時,學員將能獨立完成最佳化-部署-基準測試流程,並建立對精度、速度和成本之間權衡的直覺。課程還提供Pro版本,包含額外的學習功能如測驗和專案。
該課程共包含9個影片課程和3個程式碼示例。課程大綱包括:為什麼高效LLM部署重要(3分鐘)、推理與記憶體基礎(14分鐘)、LLM最佳化基礎(14分鐘)、使用LLM Compressor最佳化模型(11分鐘)、使用vLLM高效服務LLM第一部分(10分鐘)和第二部分(7分鐘)、衡量關鍵指標:基準測試與評估(15分鐘)、結論(4分鐘)以及一個評分測驗(10分鐘)。
值得注意的是,課程中涉及的工具和模型包括:LLM Compressor用於量化,vLLM用於推理服務,GuideLLM用於負載測試,lm-eval用於質量評估,以及Qwen模型作為最佳化目標。這些工具都是開源界廣泛採用的標準方案,實用性很強。
課程適合需要在實際生產中部署開源LLM的工程師。熟悉Python和基本LLM概念是推薦的先決條件。課程完全免費,學員可以立即透過DeepLearning.AI平臺報名學習。