AI News HubLIVE
站内改写4 分鐘閱讀

AI時代的Kubernetes

Kubernetes已從容器編排工具演變為事實上的AI平台,2025年有82%的容器用户在生成環境中使用它。生成式AI和代理式AI工作負載越來越多地在Kubernetes上運行,CNCF調查和行業實例證明了這一點。網絡技能仍然是基礎差距,CNCF推出了新的認證來解決。

來源O'Reilly AI & ML Radar作者: Andy Kwan

當Kubernetes首次出現時,它標誌着基礎設施和運維領域的一個重大轉折點,徹底改變了開發者和運維人員在雲端構建、部署和維護應用程序的方式。此後,它已成為現代應用程序構建和運行的明確標準。正如CNCF在其最新的年度雲原生調查報告中指出的,“在容器用户中,2025年有82%在生產環境中使用Kubernetes,而2023年這一比例為66%。這代表了容器生態系統內的近乎普遍採用。”

在過去幾年中,Kubernetes從容器編排器演變為AI基礎設施平台,實現了另一個領域內的變革。根據CNCF的調查,“Kubernetes作為事實上的AI平台的崛起,代表了組織處理機器學習運營方式的根本性轉變……它為傳統應用程序工作負載和計算密集型AI任務提供了統一的編排層。”生成式AI和代理式AI等顛覆性技術的出現,進一步加速了這一轉變。

AI與Kubernetes的交集無疑是運維領域最具影響力的發展之一。正如Dijure的軟件架構師Jonathan Johnson所説,“AI在K8s上非常重要,但相關資源還不夠。”Edward Jones的高級技術架構師Raju Gandhi也對此表示贊同,他指出“在K8s上運營AI/ML是一個大問題,而且越來越大。這是一個需要關注的議題。”但關於這一趨勢,我們應該瞭解哪些內容以保持領先呢?

生成式AI

任何有電腦或智能手機的人可能都使用過某種形式的生成式AI,考慮到五年前GenAI還處於主流討論的邊緣,這一事實令人震驚。但在2022年底,ChatGPT的亮相標誌着一場技術革命的開端,這場革命將影響並重塑我們工作和個人生活的幾乎每個方面。毫不意外,現在有數千個生成式AI模型,這種激增自然帶來了一系列複雜性。選擇模型很簡單,但如果你是一名應用程序開發人員或MLOps工程師,如何在實際系統中運營該模型呢?你不僅需要考慮彈性、可擴展性、安全性和運營成本等因素,還要注意如果不當操作,將模型從實驗階段帶入生產階段可能會非常艱鉅。這就是Kubernetes的用武之地。

正如Red Hat的傑出工程師Roland Huß和Daniele Zonca指出的,“GenAI/LLM模型資源密集,需要大量的計算能力和大型數據集。憑藉其可擴展性和可擴展性,Kubernetes非常適合作為AI和LLM模型預訓練、微調、部署和提示工程的平台。”他們進一步闡述,“這種與Kubernetes的集成不僅簡化了尖端AI技術的採用,還確保了無縫高效的運營流程。Kubernetes憑藉其強大的可擴展性和管理能力,成為生成式AI項目的理想平台,將DevOps和MLOps實踐統一在一個有凝聚力的生態系統中。”

這一觀點已得到行業廣泛認同。根據上述CNCF調查,截至2025年,66%的組織在Kubernetes上運行生成式AI工作負載。這些組織包括OpenAI(使用Kubernetes進行AI/LLM應用的實驗和測試)、特斯拉(利用KServe管理生產級LLM推理)以及Adobe(使用Kubernetes為其生成式創意模型套件提供支持)。其他採用此方法的公司包括Uber、Intuit和谷歌。隨着更多公司為其生成式AI和LLM運營採用這一實踐,任何組織都應謹慎利用Kubernetes來處理自己的GenAI和LLM工作流。

代理式AI

幾乎與GenAI的崛起同時,代理式AI也在穩步增長。與GenAI不同,代理式AI超越了回答簡單提示和生成文本的能力,能夠自主執行復雜的多步驟操作、使用工具並做出獨立決策。憑藉其支持傳統ML流程以及GenAI和LLM運營的能力,Kubernetes在代理式AI生態系統中也扮演着角色,這並不令人意外。

據RX-M的首席顧問Ronald Petty稱,“Kubernetes已被用於託管機器學習管道,包括AI模型訓練和推理。隨着推理選項變得豐富且價格合理(無論是在本地還是外部),我們看到了代理的興起。結合雲原生技術和流行協議,我們現在看到代理從臨時演示發展到Kubernetes等系統上的複雜代理集羣。”那麼這兩種技術之間有哪些集成示例呢?

一個值得注意的產品是Kagent,這是一個在Kubernetes中運行AI代理的操作系統編程框架,“通過處理雲原生任務(如配置、故障排除、複雜部署場景、可觀測性管道和儀表板以及安全啓用網絡安全),幫助工程師構建強大的內部平台。”類似的產品還有K8sGPT,這是一個AI驅動的工具,利用智能洞察和自動故障排除來分析Kubernetes集羣的配置問題和安全問題,並生成分析中發現問題的解決方案。

該領域的最新成員是Sympozium,這是一個用於多代理AI系統的Kubernetes原生協調層,“解決了Kubernetes為容器解決的相同問題,但適用於需要共享上下文、交接任務和維護共享態勢感知的代理。”另一個較新的產品是Agent Sandbox,它允許您通過Kubernetes上的原生API將AI代理作為隔離的有狀態工作負載運行。

基礎知識

雖然瞭解最新發展和趨勢很重要,但這不應以犧牲基礎知識和技能為代價。正如籃球巨星邁克爾·喬丹曾經説過的,“打好基礎,你所做的一切都會提升。”使用Kubernetes最基本、最困難的技能之一是網絡。正如Cisco高級員工工程師Nico Vibert觀察到的,“平台工程師通常對Linux網絡感到舒適,但對BGP和IPv6等協議不太熟悉;網絡管理員熟悉這些協議,但覺得Kubernetes抽象不熟悉。這兩種角色都難以應對滿足連接和安全要求所需的數十種網絡工具。”然而,隨着組織將關鍵任務工作負載、AI訓練管道和受監管的金融服務遷移到Kubernetes上,能夠設計、保護和排查網絡層的工程師已成為行業中最受歡迎的專業人士之一。

認識到Kubernetes網絡技能的重要性和難度,CNCF最近宣佈了一項針對Kubernetes網絡工程師角色的新認證。該認證旨在驗證上述所有層的動手網絡專業知識,填補了Kubernetes社區長期以來的空白。

對於使用Kubernetes開發和交付應用程序的組織來説,領導者和決策者需要意識到,將Kubernetes與最新的AI工具結合使用不再是一種奢侈,而是使公司蓬勃發展的必要實踐。同樣,基礎知識也應受到重視。在招聘下一名DevOps、網絡或站點可靠性工程師時,請確保他們在設計、保護和排查Kubernetes網絡層方面的能力無與倫比。

如果您想深入瞭解,請查看Roland Huß和Daniele Zonca的《Kubernetes上的生成式AI》、Jonathan Johnson的《GPU Kubernetes Homelab》現場課程、Alex Corvin、Taneem Ibrahim和Kyle Stratis的《可擴展的AI平台Kubernetes基礎設施》、Ashok Srirama和Sukirti Gupta的《用於生成式AI解決方案的Kubernetes》以及Yogesh Raheja的《K8sGPT基礎》點播課程。所有這些都在O'Reilly上。如果您不是會員,可以通過免費試用來開始。