AI News HubLIVE
站內改寫5 分鐘閱讀

AI推理的規則不同:雲存儲架構面臨代理式AI的巨大挑戰

本文探討了代理式AI對雲存儲和數據訪問層帶來的前所未有的壓力。隨着AI從簡單聊天機器人向自主多步代理轉變,推理不再是無狀態計算問題,而是大規模數據問題。文章指出傳統數據基礎設施無法應對AI代理的高併發、突發讀取和不可預測訪問模式,並分析了AWS EBS的限制,最後介紹了Silk的軟件定義存儲解決方案如何解耦性能與容量。

英偉達CEO黃仁勳近日宣佈,我們正進入“AI工廠”時代,全球科技經濟的主要產出不再是軟件,而是智能。他説的沒錯。然而,當全世界都在關注GPU集羣和萬億參數模型時,一場巨大的潛危機正在AWS、Azure和Google Cloud環境的底層悄然醖釀。AI代理正在湧向你的數據基礎設施,它們將壓垮底層的存儲和數據訪問層。我們正站在AI數據海嘯的邊緣。

從簡單聊天機器人到自主多步AI代理的轉變,意味着推理不再是一個無狀態的計算問題。它成為一個大規模、不可預測且前所未有的數據問題。為人類速度應用構建的底層數據基礎設施,將難以應對接下來的變化。這是將AI從有趣的概念驗證遷移到企業級生產環境時面臨的殘酷現實。

推理是OLTP++:規劃前所未有的併發 過去20年,我們一直針對人類行為調整數據系統和存儲層。人類反應慢:點擊按鈕,等待頁面加載,閲讀屏幕,30秒後可能再次點擊。即使在高規模下,人類流量也遵循可預測的晝夜模式,可以緩存並平均化。相比之下,AI代理不喝咖啡,也不花時間閲讀。當自主代理執行ReAct(推理與行動)循環時,它會在毫秒內發起查詢、獲取上下文,發現需要更多信息,再並行發起三個查詢。現在,將這個場景乘以數千個在EC2集羣中運行的併發代理。我們的客户親眼看到,AI推理的行為就像OLTP++:展現出前所未有的併發性、大規模讀取峯值和不可預測的訪問模式。如果你僅基於CloudWatch中管理層喜歡的平均值和歷史CPU利用率進行容量規劃,你就是在盲目飛行。你必須為突如其來的極端I/O需求高峯設計架構,因為在代理時代,峯值負載才是唯一重要的負載。

向量數據庫與RAG:設計數據路徑,而不僅僅是提示 目前,AI生態系統的焦點是提示工程和模型微調。但當你將檢索增強生成(RAG)應用從本地Jupyter筆記本遷移到AWS生產環境時,你會迅速發現一個嚴酷的現實:瓶頸不是Python,也不是LLM。瓶頸在於數據如何存儲、訪問和移動——包括索引掃描、嵌入獲取和分散-聚集延遲。當你執行像分層可導航小世界(HNSW)或帶平坦量化的倒排文件(IVFFlat)這樣的向量相似性搜索,並結合關係元數據過濾時,你迫使數據訪問層執行高度複雜、內存密集型的操作。對於AWS託管的堆棧,你需要實現熱向量的亞毫秒讀取和隨着數據集增長到數億行時可預測的吞吐量。太多工程團隊將AWS關係型數據庫服務(RDS)的只讀副本作為主要擴展策略。需要明確的是:副本是最後的手段,不是戰略。更重要的是,在不解決底層存儲和數據訪問層的情況下擴展數據庫層,只會轉移瓶頸,而不是消除它。如果你的架構計劃歸結為“增加更多讀取器並祈禱”,那麼你離一次流量峯值導致的災難性事故只差一步之遙。你需要通過為現有應用添加無風險的向量搜索來釋放AI創新,這要求設計一個能夠處理高維數學計算而不會崩潰的數據路徑。

AWS EBS的現實檢驗 AWS是一個卓越的平台,彈性塊存儲(EBS)是現代雲的主力。但EBS受物理定律和雲經濟規律的約束。EBS卷依賴於突發存儲桶和嚴格的每卷IOPS和吞吐量上限。這些機制旨在保護多租户雲環境,它們不會關心你的應用程序SLA。當AI代理失控或推理流量突然衝擊你的數據層時,它會在幾分鐘內消耗完你的EBS突發信用。一旦存儲桶耗盡,存儲性能就會急劇下降:延遲從1毫秒飆升至50毫秒,應用程序因等待存儲而停滯,應用服務器線程耗盡,整個堆棧鎖定。你不能僅僅通過滑動滑塊來配置更多IOPS來解決這個問題。在某個點上,你會達到單個EC2實例及其附加存儲可物理推送的硬限制。

從AWS存儲限制中解耦 即使AWS是你的永久基地,AI推理也在重塑對企業架構的需求。推理工作負載要求極致的性能,如果你的數據架構與原生EBS SKU的硬限制緊密耦合,你就會陷入困境。要擺脱這個陷阱,你需要一個位於AWS基礎設施之上的軟件定義存儲抽象層,它能為你提供巨大的槓桿作用。通過將應用程序和數據性能與原生AWS存儲限制解耦,你可以保護應用免受EC2容量危機、IOPS價格飆升和實例類型鎖定。

唯一重要的KPI:混合負載下的p99/p999 停止關注平均延遲。平均值是我們對自己和領導層説的謊言,只是為了對基礎設施感覺更好。用户和AI代理感受到的是異常值。如果1%的查詢耗時3秒並阻塞整個代理推理鏈,那麼2毫秒的平均延遲毫無意義。你必須將尾部延遲(p99和p999)作為硬性的發佈攔阻條件。你需要跟蹤故障發生時的尾部延遲——特別是在存儲和數據訪問層。對空閒系統進行基準測試毫無用處。你需要在真實世界的高壓力條件下測量p99:併發OLTP+推理+維護作業:當大規模批量更新或清理進程啓動時,你的向量搜索會發生什麼?可用區之間的差異:在故障轉移事件或AWS調整你的放置組時,延遲如何惡化?自動縮放事件和緩存預熱:當新的EC2節點啓動時,緩存需要多長時間預熱,存儲層在此期間會受到多大影響?如果你的平台無法在這些混合負載條件下保持緊緻的尾部延遲,那麼無論演示多麼精彩,它都沒有準備好用於推理。

客户噩夢:成功的災難 讓我們看一個現在行業正在上演的場景。我們稱這家公司為“FinRetail”,一個擁有嵌入式金融科技的大型電商平台。FinRetail構建了一個出色的AI購物助手。它使用RAG交叉引用用户購買歷史、實時庫存和實時定價數據。概念驗證完美無缺,董事會非常滿意。他們在星期二上線。到了星期二下午,它經歷了一場“成功的災難”。AI代理太徹底了。為了回答一個簡單的問題如“最適合大學生的1000美元以下筆記本電腦是什麼?”,代理執行了40步推理循環,對其PostgreSQL數據庫發起數百次向量相似性搜索,同時檢查實時庫存水平。併發性前所未有。15分鐘內,FinRetail耗盡了EBS突發信用,讀取延遲從0.8毫秒飆升至120毫秒。系統飽和,僅管理I/O等待狀態就讓整個網站宕機,連帶核心創收的OLTP系統一起崩潰。他們嘗試添加只讀副本,但底層存儲限制依然存在,AI代理開始根據過時的庫存數據產生幻覺,推薦幾個小時前就已售罄的產品。這是一場徹底的“事後分析”場景,完全是由無法處理現代推理工作負載的存儲層引起的。

Silk如何以不同方式解決這一風險 你不能通過投入更多託管磁盤來解決AI數據問題。你需要根本性的架構轉變。你需要解耦性能與容量。這正是Silk所做的。Silk是一個軟件定義的雲存儲,位於你的EC2計算和底層基礎設施之間。它加速多個底層雲資源的性能,並將它們呈現為一個單一、極快、高彈性的數據層。當我説快時,不是指邊際改進,而是推動雲物理的絕對極限。最近,數據庫專家Tanel Poder對Silk進行了測試,結果令人震驚:實現了20 GiB/s的I/O吞吐量。使用Silk,你不會受單個EBS卷的IOPS上限束縛。Silk的對稱主動-主動架構和大型分佈式緩存層吸收了AI推理前所未有的併發性。它直接從內存提供熱向量,即使同時運行重負載OLTP和維護作業,也能提供一致的亞毫秒p99延遲。我們正在全球最 demanding 的數據密集型應用中證明這一點。無論你是在突破Postgres on Silk的高性能AI向量搜索極限,還是通過Google AlloyDB進一步擴展Postgres AI工作負載,結果都是一樣的:極端規模下的企業級可預測性。Silk消除了為獲得更多存儲性能而過度配置EC2計算的需求,消除了依賴脆弱只讀副本的需求,讓你能夠在AWS上以企業級數據服務和性能保證運行AI工作負載。

停止祈禱,開始工程 AI推理海嘯已經來臨。能夠生存下來的系統將是那些建立在現代軟件定義雲存儲架構之上的系統,這些架構針對暴力併發、大規模吞吐和毫不妥協的尾部延遲而設計。不要等到你自己的“成功災難”才意識到你的AWS存儲是瓶頸。是時候審視底層,看看一個AI就緒的數據平台是什麼樣子了。準備好看到證據了嗎?聽取微軟首席數據與AI官Eduardo Kassner和Silk產品副總裁Tom O'Neill的見解,瞭解為什麼AI推理正在重塑系統行為,以及解決方案不僅僅是添加副本、採用新存儲系統或重寫應用程序。立即觀看網絡研討會:"AI Inference Didn’t Break Your Architecture - It Reveals What Comes Next"。由Silk貢獻。