2026-06-04 01:27 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

免費vLLM課程：推理、壓縮與基準測試

DeepLearning.AI與Red Hat合作推出免費中級課程《使用vLLM實現快速高效的LLM推理》，由Red Hat高階開發者倡導者Cedric Clyburn授課。課程涵蓋量化、vLLM服務部署及基準測試，時長1小時38分鐘，包含9個影片課程、3個程式碼示例和1個評分作業。

來源Hacker News AI作者: twelvenmonkeys

DeepLearning.AI與Red Hat合作推出了一門免費課程《使用vLLM實現快速高效的LLM推理》，旨在幫助機器學習工程師、平臺工程師和開發者高效部署開源大語言模型（LLM）。該課程由Red Hat高階開發者倡導者Cedric Clyburn講授，時長1小時38分鐘，包含9個影片課程、3個程式碼示例和1個評分作業，適合具備Python和基本LLM概念（如令牌、推理和GPU使用）的學員。

課程的核心挑戰在於LLM服務中的記憶體管理：模型權重和KV快取競爭GPU記憶體。例如，一個700億引數模型僅權重就需要約140 GB記憶體，而KV快取隨請求增長。學員將學習透過量化壓縮權重，並利用vLLM（一種廣泛採用的開源服務系統）的記憶體管理技術（如PagedAttention和字首快取）來提升效率。

課程覆蓋完整的“最佳化-部署-基準測試”工作流程。學員將使用LLM Compressor對開源Qwen模型進行量化，然後透過vLLM提供服務，最後在模擬真實流量下使用GuideLLM和lm-eval進行基準測試。具體內容包括：理解高效LLM部署的重要性、推理過程、KV快取和GPU記憶體層次結構；探索LLM最佳化基礎，包括權重和啟用量化如何提升吞吐量和延遲；使用LLM Compressor量化模型並評估精度；學習連續批處理、PagedAttention和字首快取三大核心技術；連線vLLM推理伺服器並透過OpenAI相容API傳送請求；以及使用GuideLLM和lm-eval進行負載測試和質量評估。

課程結束時，學員將能獨立完成最佳化-部署-基準測試流程，並建立對精度、速度和成本之間權衡的直覺。課程還提供Pro版本，包含額外的學習功能如測驗和專案。

該課程共包含9個影片課程和3個程式碼示例。課程大綱包括：為什麼高效LLM部署重要（3分鐘）、推理與記憶體基礎（14分鐘）、LLM最佳化基礎（14分鐘）、使用LLM Compressor最佳化模型（11分鐘）、使用vLLM高效服務LLM第一部分（10分鐘）和第二部分（7分鐘）、衡量關鍵指標：基準測試與評估（15分鐘）、結論（4分鐘）以及一個評分測驗（10分鐘）。

值得注意的是，課程中涉及的工具和模型包括：LLM Compressor用於量化，vLLM用於推理服務，GuideLLM用於負載測試，lm-eval用於質量評估，以及Qwen模型作為最佳化目標。這些工具都是開源界廣泛採用的標準方案，實用性很強。

課程適合需要在實際生產中部署開源LLM的工程師。熟悉Python和基本LLM概念是推薦的先決條件。課程完全免費，學員可以立即透過DeepLearning.AI平臺報名學習。