免费vLLM课程:推理、压缩与基准测试
DeepLearning.AI与Red Hat合作推出免费中级课程《使用vLLM实现快速高效的LLM推理》,由Red Hat高级开发者倡导者Cedric Clyburn授课。课程涵盖量化、vLLM服务部署及基准测试,时长1小时38分钟,包含9个视频课程、3个代码示例和1个评分作业。
DeepLearning.AI与Red Hat合作推出了一门免费课程《使用vLLM实现快速高效的LLM推理》,旨在帮助机器学习工程师、平台工程师和开发者高效部署开源大语言模型(LLM)。该课程由Red Hat高级开发者倡导者Cedric Clyburn讲授,时长1小时38分钟,包含9个视频课程、3个代码示例和1个评分作业,适合具备Python和基本LLM概念(如令牌、推理和GPU使用)的学员。
课程的核心挑战在于LLM服务中的内存管理:模型权重和KV缓存竞争GPU内存。例如,一个700亿参数模型仅权重就需要约140 GB内存,而KV缓存随请求增长。学员将学习通过量化压缩权重,并利用vLLM(一种广泛采用的开源服务系统)的内存管理技术(如PagedAttention和前缀缓存)来提升效率。
课程覆盖完整的“优化-部署-基准测试”工作流程。学员将使用LLM Compressor对开源Qwen模型进行量化,然后通过vLLM提供服务,最后在模拟真实流量下使用GuideLLM和lm-eval进行基准测试。具体内容包括:理解高效LLM部署的重要性、推理过程、KV缓存和GPU内存层次结构;探索LLM优化基础,包括权重和激活量化如何提升吞吐量和延迟;使用LLM Compressor量化模型并评估精度;学习连续批处理、PagedAttention和前缀缓存三大核心技术;连接vLLM推理服务器并通过OpenAI兼容API发送请求;以及使用GuideLLM和lm-eval进行负载测试和质量评估。
课程结束时,学员将能独立完成优化-部署-基准测试流程,并建立对精度、速度和成本之间权衡的直觉。课程还提供Pro版本,包含额外的学习功能如测验和项目。
该课程共包含9个视频课程和3个代码示例。课程大纲包括:为什么高效LLM部署重要(3分钟)、推理与内存基础(14分钟)、LLM优化基础(14分钟)、使用LLM Compressor优化模型(11分钟)、使用vLLM高效服务LLM第一部分(10分钟)和第二部分(7分钟)、衡量关键指标:基准测试与评估(15分钟)、结论(4分钟)以及一个评分测验(10分钟)。
值得注意的是,课程中涉及的工具和模型包括:LLM Compressor用于量化,vLLM用于推理服务,GuideLLM用于负载测试,lm-eval用于质量评估,以及Qwen模型作为优化目标。这些工具都是开源界广泛采用的标准方案,实用性很强。
课程适合需要在实际生产中部署开源LLM的工程师。熟悉Python和基本LLM概念是推荐的先决条件。课程完全免费,学员可以立即通过DeepLearning.AI平台报名学习。