2026-06-18站内改写4 分鐘閱讀更新: 2026-06-18

AI時代的Kubernetes

Kubernetes已從容器編排工具演變為事實上的AI平台，2025年有82%的容器用户在生成環境中使用它。生成式AI和代理式AI工作負載越來越多地在Kubernetes上運行，CNCF調查和行業實例證明了這一點。網絡技能仍然是基礎差距，CNCF推出了新的認證來解決。

來源O'Reilly AI & ML Radar作者: Andy Kwan

當Kubernetes首次出現時，它標誌着基礎設施和運維領域的一個重大轉折點，徹底改變了開發者和運維人員在雲端構建、部署和維護應用程序的方式。此後，它已成為現代應用程序構建和運行的明確標準。正如CNCF在其最新的年度雲原生調查報告中指出的，“在容器用户中，2025年有82%在生產環境中使用Kubernetes，而2023年這一比例為66%。這代表了容器生態系統內的近乎普遍採用。”

在過去幾年中，Kubernetes從容器編排器演變為AI基礎設施平台，實現了另一個領域內的變革。根據CNCF的調查，“Kubernetes作為事實上的AI平台的崛起，代表了組織處理機器學習運營方式的根本性轉變……它為傳統應用程序工作負載和計算密集型AI任務提供了統一的編排層。”生成式AI和代理式AI等顛覆性技術的出現，進一步加速了這一轉變。

AI與Kubernetes的交集無疑是運維領域最具影響力的發展之一。正如Dijure的軟件架構師Jonathan Johnson所説，“AI在K8s上非常重要，但相關資源還不夠。”Edward Jones的高級技術架構師Raju Gandhi也對此表示贊同，他指出“在K8s上運營AI/ML是一個大問題，而且越來越大。這是一個需要關注的議題。”但關於這一趨勢，我們應該瞭解哪些內容以保持領先呢？

生成式AI

任何有電腦或智能手機的人可能都使用過某種形式的生成式AI，考慮到五年前GenAI還處於主流討論的邊緣，這一事實令人震驚。但在2022年底，ChatGPT的亮相標誌着一場技術革命的開端，這場革命將影響並重塑我們工作和個人生活的幾乎每個方面。毫不意外，現在有數千個生成式AI模型，這種激增自然帶來了一系列複雜性。選擇模型很簡單，但如果你是一名應用程序開發人員或MLOps工程師，如何在實際系統中運營該模型呢？你不僅需要考慮彈性、可擴展性、安全性和運營成本等因素，還要注意如果不當操作，將模型從實驗階段帶入生產階段可能會非常艱鉅。這就是Kubernetes的用武之地。

正如Red Hat的傑出工程師Roland Huß和Daniele Zonca指出的，“GenAI/LLM模型資源密集，需要大量的計算能力和大型數據集。憑藉其可擴展性和可擴展性，Kubernetes非常適合作為AI和LLM模型預訓練、微調、部署和提示工程的平台。”他們進一步闡述，“這種與Kubernetes的集成不僅簡化了尖端AI技術的採用，還確保了無縫高效的運營流程。Kubernetes憑藉其強大的可擴展性和管理能力，成為生成式AI項目的理想平台，將DevOps和MLOps實踐統一在一個有凝聚力的生態系統中。”

這一觀點已得到行業廣泛認同。根據上述CNCF調查，截至2025年，66%的組織在Kubernetes上運行生成式AI工作負載。這些組織包括OpenAI（使用Kubernetes進行AI/LLM應用的實驗和測試）、特斯拉（利用KServe管理生產級LLM推理）以及Adobe（使用Kubernetes為其生成式創意模型套件提供支持）。其他採用此方法的公司包括Uber、Intuit和谷歌。隨着更多公司為其生成式AI和LLM運營採用這一實踐，任何組織都應謹慎利用Kubernetes來處理自己的GenAI和LLM工作流。

代理式AI

幾乎與GenAI的崛起同時，代理式AI也在穩步增長。與GenAI不同，代理式AI超越了回答簡單提示和生成文本的能力，能夠自主執行復雜的多步驟操作、使用工具並做出獨立決策。憑藉其支持傳統ML流程以及GenAI和LLM運營的能力，Kubernetes在代理式AI生態系統中也扮演着角色，這並不令人意外。

據RX-M的首席顧問Ronald Petty稱，“Kubernetes已被用於託管機器學習管道，包括AI模型訓練和推理。隨着推理選項變得豐富且價格合理（無論是在本地還是外部），我們看到了代理的興起。結合雲原生技術和流行協議，我們現在看到代理從臨時演示發展到Kubernetes等系統上的複雜代理集羣。”那麼這兩種技術之間有哪些集成示例呢？

一個值得注意的產品是Kagent，這是一個在Kubernetes中運行AI代理的操作系統編程框架，“通過處理雲原生任務（如配置、故障排除、複雜部署場景、可觀測性管道和儀表板以及安全啓用網絡安全），幫助工程師構建強大的內部平台。”類似的產品還有K8sGPT，這是一個AI驅動的工具，利用智能洞察和自動故障排除來分析Kubernetes集羣的配置問題和安全問題，並生成分析中發現問題的解決方案。

該領域的最新成員是Sympozium，這是一個用於多代理AI系統的Kubernetes原生協調層，“解決了Kubernetes為容器解決的相同問題，但適用於需要共享上下文、交接任務和維護共享態勢感知的代理。”另一個較新的產品是Agent Sandbox，它允許您通過Kubernetes上的原生API將AI代理作為隔離的有狀態工作負載運行。

基礎知識

雖然瞭解最新發展和趨勢很重要，但這不應以犧牲基礎知識和技能為代價。正如籃球巨星邁克爾·喬丹曾經説過的，“打好基礎，你所做的一切都會提升。”使用Kubernetes最基本、最困難的技能之一是網絡。正如Cisco高級員工工程師Nico Vibert觀察到的，“平台工程師通常對Linux網絡感到舒適，但對BGP和IPv6等協議不太熟悉；網絡管理員熟悉這些協議，但覺得Kubernetes抽象不熟悉。這兩種角色都難以應對滿足連接和安全要求所需的數十種網絡工具。”然而，隨着組織將關鍵任務工作負載、AI訓練管道和受監管的金融服務遷移到Kubernetes上，能夠設計、保護和排查網絡層的工程師已成為行業中最受歡迎的專業人士之一。

認識到Kubernetes網絡技能的重要性和難度，CNCF最近宣佈了一項針對Kubernetes網絡工程師角色的新認證。該認證旨在驗證上述所有層的動手網絡專業知識，填補了Kubernetes社區長期以來的空白。

對於使用Kubernetes開發和交付應用程序的組織來説，領導者和決策者需要意識到，將Kubernetes與最新的AI工具結合使用不再是一種奢侈，而是使公司蓬勃發展的必要實踐。同樣，基礎知識也應受到重視。在招聘下一名DevOps、網絡或站點可靠性工程師時，請確保他們在設計、保護和排查Kubernetes網絡層方面的能力無與倫比。

如果您想深入瞭解，請查看Roland Huß和Daniele Zonca的《Kubernetes上的生成式AI》、Jonathan Johnson的《GPU Kubernetes Homelab》現場課程、Alex Corvin、Taneem Ibrahim和Kyle Stratis的《可擴展的AI平台Kubernetes基礎設施》、Ashok Srirama和Sukirti Gupta的《用於生成式AI解決方案的Kubernetes》以及Yogesh Raheja的《K8sGPT基礎》點播課程。所有這些都在O'Reilly上。如果您不是會員，可以通過免費試用來開始。