AI News HubLIVE
站内改写5 分钟阅读

AI推理的规则不同:云存储架构面临代理式AI的巨大挑战

本文探讨了代理式AI对云存储和数据访问层带来的前所未有的压力。随着AI从简单聊天机器人向自主多步代理转变,推理不再是无状态计算问题,而是大规模数据问题。文章指出传统数据基础设施无法应对AI代理的高并发、突发读取和不可预测访问模式,并分析了AWS EBS的限制,最后介绍了Silk的软件定义存储解决方案如何解耦性能与容量。

英伟达CEO黄仁勋近日宣布,我们正进入“AI工厂”时代,全球科技经济的主要产出不再是软件,而是智能。他说的没错。然而,当全世界都在关注GPU集群和万亿参数模型时,一场巨大的潜危机正在AWS、Azure和Google Cloud环境的底层悄然酝酿。AI代理正在涌向你的数据基础设施,它们将压垮底层的存储和数据访问层。我们正站在AI数据海啸的边缘。

从简单聊天机器人到自主多步AI代理的转变,意味着推理不再是一个无状态的计算问题。它成为一个大规模、不可预测且前所未有的数据问题。为人类速度应用构建的底层数据基础设施,将难以应对接下来的变化。这是将AI从有趣的概念验证迁移到企业级生产环境时面临的残酷现实。

推理是OLTP++:规划前所未有的并发 过去20年,我们一直针对人类行为调整数据系统和存储层。人类反应慢:点击按钮,等待页面加载,阅读屏幕,30秒后可能再次点击。即使在高规模下,人类流量也遵循可预测的昼夜模式,可以缓存并平均化。相比之下,AI代理不喝咖啡,也不花时间阅读。当自主代理执行ReAct(推理与行动)循环时,它会在毫秒内发起查询、获取上下文,发现需要更多信息,再并行发起三个查询。现在,将这个场景乘以数千个在EC2集群中运行的并发代理。我们的客户亲眼看到,AI推理的行为就像OLTP++:展现出前所未有的并发性、大规模读取峰值和不可预测的访问模式。如果你仅基于CloudWatch中管理层喜欢的平均值和历史CPU利用率进行容量规划,你就是在盲目飞行。你必须为突如其来的极端I/O需求高峰设计架构,因为在代理时代,峰值负载才是唯一重要的负载。

向量数据库与RAG:设计数据路径,而不仅仅是提示 目前,AI生态系统的焦点是提示工程和模型微调。但当你将检索增强生成(RAG)应用从本地Jupyter笔记本迁移到AWS生产环境时,你会迅速发现一个严酷的现实:瓶颈不是Python,也不是LLM。瓶颈在于数据如何存储、访问和移动——包括索引扫描、嵌入获取和分散-聚集延迟。当你执行像分层可导航小世界(HNSW)或带平坦量化的倒排文件(IVFFlat)这样的向量相似性搜索,并结合关系元数据过滤时,你迫使数据访问层执行高度复杂、内存密集型的操作。对于AWS托管的堆栈,你需要实现热向量的亚毫秒读取和随着数据集增长到数亿行时可预测的吞吐量。太多工程团队将AWS关系型数据库服务(RDS)的只读副本作为主要扩展策略。需要明确的是:副本是最后的手段,不是战略。更重要的是,在不解决底层存储和数据访问层的情况下扩展数据库层,只会转移瓶颈,而不是消除它。如果你的架构计划归结为“增加更多读取器并祈祷”,那么你离一次流量峰值导致的灾难性事故只差一步之遥。你需要通过为现有应用添加无风险的向量搜索来释放AI创新,这要求设计一个能够处理高维数学计算而不会崩溃的数据路径。

AWS EBS的现实检验 AWS是一个卓越的平台,弹性块存储(EBS)是现代云的主力。但EBS受物理定律和云经济规律的约束。EBS卷依赖于突发存储桶和严格的每卷IOPS和吞吐量上限。这些机制旨在保护多租户云环境,它们不会关心你的应用程序SLA。当AI代理失控或推理流量突然冲击你的数据层时,它会在几分钟内消耗完你的EBS突发信用。一旦存储桶耗尽,存储性能就会急剧下降:延迟从1毫秒飙升至50毫秒,应用程序因等待存储而停滞,应用服务器线程耗尽,整个堆栈锁定。你不能仅仅通过滑动滑块来配置更多IOPS来解决这个问题。在某个点上,你会达到单个EC2实例及其附加存储可物理推送的硬限制。

从AWS存储限制中解耦 即使AWS是你的永久基地,AI推理也在重塑对企业架构的需求。推理工作负载要求极致的性能,如果你的数据架构与原生EBS SKU的硬限制紧密耦合,你就会陷入困境。要摆脱这个陷阱,你需要一个位于AWS基础设施之上的软件定义存储抽象层,它能为你提供巨大的杠杆作用。通过将应用程序和数据性能与原生AWS存储限制解耦,你可以保护应用免受EC2容量危机、IOPS价格飙升和实例类型锁定。

唯一重要的KPI:混合负载下的p99/p999 停止关注平均延迟。平均值是我们对自己和领导层说的谎言,只是为了对基础设施感觉更好。用户和AI代理感受到的是异常值。如果1%的查询耗时3秒并阻塞整个代理推理链,那么2毫秒的平均延迟毫无意义。你必须将尾部延迟(p99和p999)作为硬性的发布拦阻条件。你需要跟踪故障发生时的尾部延迟——特别是在存储和数据访问层。对空闲系统进行基准测试毫无用处。你需要在真实世界的高压力条件下测量p99:并发OLTP+推理+维护作业:当大规模批量更新或清理进程启动时,你的向量搜索会发生什么?可用区之间的差异:在故障转移事件或AWS调整你的放置组时,延迟如何恶化?自动缩放事件和缓存预热:当新的EC2节点启动时,缓存需要多长时间预热,存储层在此期间会受到多大影响?如果你的平台无法在这些混合负载条件下保持紧致的尾部延迟,那么无论演示多么精彩,它都没有准备好用于推理。

客户噩梦:成功的灾难 让我们看一个现在行业正在上演的场景。我们称这家公司为“FinRetail”,一个拥有嵌入式金融科技的大型电商平台。FinRetail构建了一个出色的AI购物助手。它使用RAG交叉引用用户购买历史、实时库存和实时定价数据。概念验证完美无缺,董事会非常满意。他们在星期二上线。到了星期二下午,它经历了一场“成功的灾难”。AI代理太彻底了。为了回答一个简单的问题如“最适合大学生的1000美元以下笔记本电脑是什么?”,代理执行了40步推理循环,对其PostgreSQL数据库发起数百次向量相似性搜索,同时检查实时库存水平。并发性前所未有。15分钟内,FinRetail耗尽了EBS突发信用,读取延迟从0.8毫秒飙升至120毫秒。系统饱和,仅管理I/O等待状态就让整个网站宕机,连带核心创收的OLTP系统一起崩溃。他们尝试添加只读副本,但底层存储限制依然存在,AI代理开始根据过时的库存数据产生幻觉,推荐几个小时前就已售罄的产品。这是一场彻底的“事后分析”场景,完全是由无法处理现代推理工作负载的存储层引起的。

Silk如何以不同方式解决这一风险 你不能通过投入更多托管磁盘来解决AI数据问题。你需要根本性的架构转变。你需要解耦性能与容量。这正是Silk所做的。Silk是一个软件定义的云存储,位于你的EC2计算和底层基础设施之间。它加速多个底层云资源的性能,并将它们呈现为一个单一、极快、高弹性的数据层。当我说快时,不是指边际改进,而是推动云物理的绝对极限。最近,数据库专家Tanel Poder对Silk进行了测试,结果令人震惊:实现了20 GiB/s的I/O吞吐量。使用Silk,你不会受单个EBS卷的IOPS上限束缚。Silk的对称主动-主动架构和大型分布式缓存层吸收了AI推理前所未有的并发性。它直接从内存提供热向量,即使同时运行重负载OLTP和维护作业,也能提供一致的亚毫秒p99延迟。我们正在全球最 demanding 的数据密集型应用中证明这一点。无论你是在突破Postgres on Silk的高性能AI向量搜索极限,还是通过Google AlloyDB进一步扩展Postgres AI工作负载,结果都是一样的:极端规模下的企业级可预测性。Silk消除了为获得更多存储性能而过度配置EC2计算的需求,消除了依赖脆弱只读副本的需求,让你能够在AWS上以企业级数据服务和性能保证运行AI工作负载。

停止祈祷,开始工程 AI推理海啸已经来临。能够生存下来的系统将是那些建立在现代软件定义云存储架构之上的系统,这些架构针对暴力并发、大规模吞吐和毫不妥协的尾部延迟而设计。不要等到你自己的“成功灾难”才意识到你的AWS存储是瓶颈。是时候审视底层,看看一个AI就绪的数据平台是什么样子了。准备好看到证据了吗?听取微软首席数据与AI官Eduardo Kassner和Silk产品副总裁Tom O'Neill的见解,了解为什么AI推理正在重塑系统行为,以及解决方案不仅仅是添加副本、采用新存储系统或重写应用程序。立即观看网络研讨会:"AI Inference Didn’t Break Your Architecture - It Reveals What Comes Next"。由Silk贡献。