AI时代的Kubernetes
Kubernetes已从容器编排工具演变为事实上的AI平台,2025年有82%的容器用户在生成环境中使用它。生成式AI和代理式AI工作负载越来越多地在Kubernetes上运行,CNCF调查和行业实例证明了这一点。网络技能仍然是基础差距,CNCF推出了新的认证来解决。
当Kubernetes首次出现时,它标志着基础设施和运维领域的一个重大转折点,彻底改变了开发者和运维人员在云端构建、部署和维护应用程序的方式。此后,它已成为现代应用程序构建和运行的明确标准。正如CNCF在其最新的年度云原生调查报告中指出的,“在容器用户中,2025年有82%在生产环境中使用Kubernetes,而2023年这一比例为66%。这代表了容器生态系统内的近乎普遍采用。”
在过去几年中,Kubernetes从容器编排器演变为AI基础设施平台,实现了另一个领域内的变革。根据CNCF的调查,“Kubernetes作为事实上的AI平台的崛起,代表了组织处理机器学习运营方式的根本性转变……它为传统应用程序工作负载和计算密集型AI任务提供了统一的编排层。”生成式AI和代理式AI等颠覆性技术的出现,进一步加速了这一转变。
AI与Kubernetes的交集无疑是运维领域最具影响力的发展之一。正如Dijure的软件架构师Jonathan Johnson所说,“AI在K8s上非常重要,但相关资源还不够。”Edward Jones的高级技术架构师Raju Gandhi也对此表示赞同,他指出“在K8s上运营AI/ML是一个大问题,而且越来越大。这是一个需要关注的议题。”但关于这一趋势,我们应该了解哪些内容以保持领先呢?
生成式AI
任何有电脑或智能手机的人可能都使用过某种形式的生成式AI,考虑到五年前GenAI还处于主流讨论的边缘,这一事实令人震惊。但在2022年底,ChatGPT的亮相标志着一场技术革命的开端,这场革命将影响并重塑我们工作和个人生活的几乎每个方面。毫不意外,现在有数千个生成式AI模型,这种激增自然带来了一系列复杂性。选择模型很简单,但如果你是一名应用程序开发人员或MLOps工程师,如何在实际系统中运营该模型呢?你不仅需要考虑弹性、可扩展性、安全性和运营成本等因素,还要注意如果不当操作,将模型从实验阶段带入生产阶段可能会非常艰巨。这就是Kubernetes的用武之地。
正如Red Hat的杰出工程师Roland Huß和Daniele Zonca指出的,“GenAI/LLM模型资源密集,需要大量的计算能力和大型数据集。凭借其可扩展性和可扩展性,Kubernetes非常适合作为AI和LLM模型预训练、微调、部署和提示工程的平台。”他们进一步阐述,“这种与Kubernetes的集成不仅简化了尖端AI技术的采用,还确保了无缝高效的运营流程。Kubernetes凭借其强大的可扩展性和管理能力,成为生成式AI项目的理想平台,将DevOps和MLOps实践统一在一个有凝聚力的生态系统中。”
这一观点已得到行业广泛认同。根据上述CNCF调查,截至2025年,66%的组织在Kubernetes上运行生成式AI工作负载。这些组织包括OpenAI(使用Kubernetes进行AI/LLM应用的实验和测试)、特斯拉(利用KServe管理生产级LLM推理)以及Adobe(使用Kubernetes为其生成式创意模型套件提供支持)。其他采用此方法的公司包括Uber、Intuit和谷歌。随着更多公司为其生成式AI和LLM运营采用这一实践,任何组织都应谨慎利用Kubernetes来处理自己的GenAI和LLM工作流。
代理式AI
几乎与GenAI的崛起同时,代理式AI也在稳步增长。与GenAI不同,代理式AI超越了回答简单提示和生成文本的能力,能够自主执行复杂的多步骤操作、使用工具并做出独立决策。凭借其支持传统ML流程以及GenAI和LLM运营的能力,Kubernetes在代理式AI生态系统中也扮演着角色,这并不令人意外。
据RX-M的首席顾问Ronald Petty称,“Kubernetes已被用于托管机器学习管道,包括AI模型训练和推理。随着推理选项变得丰富且价格合理(无论是在本地还是外部),我们看到了代理的兴起。结合云原生技术和流行协议,我们现在看到代理从临时演示发展到Kubernetes等系统上的复杂代理集群。”那么这两种技术之间有哪些集成示例呢?
一个值得注意的产品是Kagent,这是一个在Kubernetes中运行AI代理的操作系统编程框架,“通过处理云原生任务(如配置、故障排除、复杂部署场景、可观测性管道和仪表板以及安全启用网络安全),帮助工程师构建强大的内部平台。”类似的产品还有K8sGPT,这是一个AI驱动的工具,利用智能洞察和自动故障排除来分析Kubernetes集群的配置问题和安全问题,并生成分析中发现问题的解决方案。
该领域的最新成员是Sympozium,这是一个用于多代理AI系统的Kubernetes原生协调层,“解决了Kubernetes为容器解决的相同问题,但适用于需要共享上下文、交接任务和维护共享态势感知的代理。”另一个较新的产品是Agent Sandbox,它允许您通过Kubernetes上的原生API将AI代理作为隔离的有状态工作负载运行。
基础知识
虽然了解最新发展和趋势很重要,但这不应以牺牲基础知识和技能为代价。正如篮球巨星迈克尔·乔丹曾经说过的,“打好基础,你所做的一切都会提升。”使用Kubernetes最基本、最困难的技能之一是网络。正如Cisco高级员工工程师Nico Vibert观察到的,“平台工程师通常对Linux网络感到舒适,但对BGP和IPv6等协议不太熟悉;网络管理员熟悉这些协议,但觉得Kubernetes抽象不熟悉。这两种角色都难以应对满足连接和安全要求所需的数十种网络工具。”然而,随着组织将关键任务工作负载、AI训练管道和受监管的金融服务迁移到Kubernetes上,能够设计、保护和排查网络层的工程师已成为行业中最受欢迎的专业人士之一。
认识到Kubernetes网络技能的重要性和难度,CNCF最近宣布了一项针对Kubernetes网络工程师角色的新认证。该认证旨在验证上述所有层的动手网络专业知识,填补了Kubernetes社区长期以来的空白。
对于使用Kubernetes开发和交付应用程序的组织来说,领导者和决策者需要意识到,将Kubernetes与最新的AI工具结合使用不再是一种奢侈,而是使公司蓬勃发展的必要实践。同样,基础知识也应受到重视。在招聘下一名DevOps、网络或站点可靠性工程师时,请确保他们在设计、保护和排查Kubernetes网络层方面的能力无与伦比。
如果您想深入了解,请查看Roland Huß和Daniele Zonca的《Kubernetes上的生成式AI》、Jonathan Johnson的《GPU Kubernetes Homelab》现场课程、Alex Corvin、Taneem Ibrahim和Kyle Stratis的《可扩展的AI平台Kubernetes基础设施》、Ashok Srirama和Sukirti Gupta的《用于生成式AI解决方案的Kubernetes》以及Yogesh Raheja的《K8sGPT基础》点播课程。所有这些都在O'Reilly上。如果您不是会员,可以通过免费试用来开始。