2026-06-04 01:27 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

免费vLLM课程：推理、压缩与基准测试

DeepLearning.AI与Red Hat合作推出免费中级课程《使用vLLM实现快速高效的LLM推理》，由Red Hat高级开发者倡导者Cedric Clyburn授课。课程涵盖量化、vLLM服务部署及基准测试，时长1小时38分钟，包含9个视频课程、3个代码示例和1个评分作业。

来源Hacker News AI作者: twelvenmonkeys

DeepLearning.AI与Red Hat合作推出了一门免费课程《使用vLLM实现快速高效的LLM推理》，旨在帮助机器学习工程师、平台工程师和开发者高效部署开源大语言模型（LLM）。该课程由Red Hat高级开发者倡导者Cedric Clyburn讲授，时长1小时38分钟，包含9个视频课程、3个代码示例和1个评分作业，适合具备Python和基本LLM概念（如令牌、推理和GPU使用）的学员。

课程的核心挑战在于LLM服务中的内存管理：模型权重和KV缓存竞争GPU内存。例如，一个700亿参数模型仅权重就需要约140 GB内存，而KV缓存随请求增长。学员将学习通过量化压缩权重，并利用vLLM（一种广泛采用的开源服务系统）的内存管理技术（如PagedAttention和前缀缓存）来提升效率。

课程覆盖完整的“优化-部署-基准测试”工作流程。学员将使用LLM Compressor对开源Qwen模型进行量化，然后通过vLLM提供服务，最后在模拟真实流量下使用GuideLLM和lm-eval进行基准测试。具体内容包括：理解高效LLM部署的重要性、推理过程、KV缓存和GPU内存层次结构；探索LLM优化基础，包括权重和激活量化如何提升吞吐量和延迟；使用LLM Compressor量化模型并评估精度；学习连续批处理、PagedAttention和前缀缓存三大核心技术；连接vLLM推理服务器并通过OpenAI兼容API发送请求；以及使用GuideLLM和lm-eval进行负载测试和质量评估。

课程结束时，学员将能独立完成优化-部署-基准测试流程，并建立对精度、速度和成本之间权衡的直觉。课程还提供Pro版本，包含额外的学习功能如测验和项目。

该课程共包含9个视频课程和3个代码示例。课程大纲包括：为什么高效LLM部署重要（3分钟）、推理与内存基础（14分钟）、LLM优化基础（14分钟）、使用LLM Compressor优化模型（11分钟）、使用vLLM高效服务LLM第一部分（10分钟）和第二部分（7分钟）、衡量关键指标：基准测试与评估（15分钟）、结论（4分钟）以及一个评分测验（10分钟）。

值得注意的是，课程中涉及的工具和模型包括：LLM Compressor用于量化，vLLM用于推理服务，GuideLLM用于负载测试，lm-eval用于质量评估，以及Qwen模型作为优化目标。这些工具都是开源界广泛采用的标准方案，实用性很强。

课程适合需要在实际生产中部署开源LLM的工程师。熟悉Python和基本LLM概念是推荐的先决条件。课程完全免费，学员可以立即通过DeepLearning.AI平台报名学习。