STARIXNet:面向云平台实时资源分配的多变量多属性深度学习方法
STARIXNet 是一种轻量级神经网络,通过捕捉多系统指标间的时空关系,在多变量空间内指导资源分配决策,优先保障服务稳定性与成本效率。在沃尔玛关键生产微服务中部署后,实现了 10% 至 50% 的显著成本节约,并提升了服务稳定性与客户体验。
云平台中微服务的智能缩放对于控制日益增长的计算成本同时避免服务中断至关重要。然而,当前解决方案多局限于单变量空间,通常仅依赖CPU使用率驱动缩放决策。这些方法将问题视为纯粹的预测任务,关注预测精度却忽视了低估风险和系统响应延迟。低估风险意味着当预测不准确时,实际资源需求可能超出分配,导致服务性能下降甚至中断;而系统响应延迟则指从检测到需求变化到实际资源调整之间存在时间差,进一步加剧了不稳定性。替代方案如强化学习或复杂优化算法虽然能处理多变量,但计算复杂度高,难以在大规模实时场景中部署。
为应对这些挑战,研究团队提出了STARIXNet——一种轻量级神经网络。该网络通过捕捉多个系统指标间的时空关系,在多变量空间内指导资源分配决策。STARIXNet 对多个准依赖属性进行建模,特别是季节性(Seasonal)、时序(Temporal)、自回归整合(Auto-Regressive Integrated)以及外生(eXogenous)模式。这意味着该网络不仅考虑历史数据的趋势和周期性,还能整合外部因素(如促销活动、节假日等)对资源需求的影响。在提取这些模式后,STARIXNet 通过一个聚合策略最终确定缩放决策,该策略优先保障服务稳定性,其次是成本效率,而非单纯追求预测精度。这与传统方法形成鲜明对比:传统方法以最小化预测误差为目标,但在云环境中,偶尔的过度分配(成本增加)比分配不足(服务受损)更可接受。
研究团队通过在真实环境中与现有方案对比,实证了 STARIXNet 的性能。该网络已在沃尔玛的关键生产微服务中部署,这些微服务处理着海量交易数据,对实时性要求极高。部署结果显示,STARIXNet 实现了 10% 到 50% 的实质性成本节约,同时带来了服务稳定性提升和客户体验改善等无形收益。例如,在促销高峰期,系统能够动态调整资源,避免了以往的卡顿或超时问题。此外,由于减少了人工干预需求,运维效率也得到了提升。
STARIXNet 的提出标志着云资源分配从单一指标预测向多属性、多变量实时决策的转变。该研究论文共 11 页,包含 12 张图表,目前正在期刊评审中。未来工作可能包括将模型扩展到更多类型的云服务,以及结合在线学习进一步适应动态变化的工作负载。对于大规模云平台而言,STARIXNet 提供了一条兼顾成本优化与稳定性的新路径,预计将吸引业界广泛关注。