AI News HubLIVE
站内改写3 分钟阅读

Virtana 将 AI 工厂可观测性扩展到 Dell AI 工厂

Virtana 宣布为 Dell AI 工厂环境提供 AI 工厂可观测性,集成戴尔 PowerEdge、PowerScale、ObjectScale、高速网络和 Smart Fabric Manager。该解决方案提供跨堆栈的端到端可视性,帮助团队将基础设施性能与 AI 结果关联起来。调查显示,近 60% 的企业无法自动识别 AI 工作负载告警的根因。

来源AIwire作者: Andrew Jolly

加利福尼亚州帕洛阿尔托,2026 年 5 月 13 日 — Virtana 今日宣布为 Dell AI 工厂环境提供 AI 工厂可观测性,将其 AI 工厂可观测平台扩展到业界最广泛部署的企业 AI 基础设施堆栈之一。该集成覆盖 Dell PowerEdge 计算、PowerScale 和 ObjectScale 存储、高速网络结构(包括 InfiniBand、以太网和 NVLink)以及戴尔的 Smart Fabric Manager(SFM)编排层。

随着企业部署 Dell AI Factory 来大规模运行 GPU 密集型训练和推理,运营挑战从基础设施采购转向基础设施性能:不仅要了解组件是否在运行,还要了解系统是否高效地产生成果。Virtana 直接应对这一挑战,为基础设施和 AI 平台团队提供跨 Dell AI Factory 堆栈每一层的端到端可见性和控制。在建立了与 NVIDIA 和 Nutanix 的深度集成后,Virtana 继续将全栈可观测性扩展到企业大规模构建和运行 AI 的主要生态系统环境。

“Dell AI Factory 为企业大规模运行 AI 提供了世界一流的 foundation。每个组织面临的挑战,无论平台如何,都是将基础设施性能与实际 AI 成果联系起来,”Virtana 首席执行官 Paul Appleby 表示。“Virtana 解决了这个问题。我们为 Dell AI Factory 客户提供端到端可见性,让他们了解 GPU 是否产生价值、存在哪些约束以及如何优化系统以从投资中获得更多收益。”

Virtana 的 2026 年 AI 工厂现状调查(针对企业 AI 基础设施领导者)强调了紧迫性:近 60% 的企业无法在 AI 工作负载告警触发时自动跨基础设施域识别根本原因。这些故障很少由单个组件引起,而是源于系统级约束,如 GPU 争用、网络饱和、存储延迟和紧密耦合堆栈中错误分配的容量,这些是单个监控工具无法检测到的。

Virtana 提供映射到 Dell AI Factory 的全栈可观测性

Virtana AI 工厂可观测性原生集成到 Dell AI Factory 架构的每一层。Virtana 并非增加遥测数据量,而是连接整个堆栈的信号,并通过在一个操作视图中关联 GPU 性能与存储 I/O、网络结构吞吐量、工作负载编排和 AI 模型输出来解释系统行为的原因。

“智能体应用架构需要重新理解堆栈,从基础设施到 AI,再到构成实时运营的数以千计的决策,”IDC 研究总监 Shannon Kalvar 表示。“成功的组织严重依赖于一个由值得信赖的合作伙伴组成的生态系统,这些合作伙伴围绕一个提供可操作洞察以塑造未来结果的定向平面进行协调。”

Virtana 在 Dell AI Factory 堆栈中提供的 AI 工厂可观测性功能包括:

GPU 和计算性能(跨 PowerEdge 基础设施):将利用率映射到工作负载输出,暴露空闲和错误分配的容量,并将 GPU 性能与上下游依赖关系相关联。

存储可观测性(跨 PowerScale 和 ObjectScale):识别直接影响训练和推理的 I/O 延迟,将数据管道性能与模型减速相关联,并使存储瓶颈可见且可操作。

网络结构智能(跨 InfiniBand、以太网和 NVLink):检测 GPU 集群间的东西向拥塞,将结构性能与作业延迟相关联,并识别限制分布式训练环境扩展效率的约束。

通过 SFM 集成实现集群和结构管理可见性:显示工作负载放置行为,并提供潜在不平衡或低效的方向性洞察,而无需跨工具进行深度手动关联。

来自 iDRAC 遥测的节点级硬件智能:将电源、散热和健康信号与系统影响相关联,以区分硬件问题与工作负载或编排问题。

AI 工作负载和成本优化:将 LLM 行为、令牌使用和延迟与基础设施性能相关联,将每令牌成本映射到实际基础设施消耗,并实现对 AI 经济学的真正优化。

“大规模的 AI 工作负载本质上是复杂的;它们跨越 GPU、存储、网络和编排。性能取决于所有这些层如何交互,”Virtana 首席产品官 Amitkumar Rathi 表示。“Dell AI Factory 为企业提供了一个强大、集成的 foundation。Virtana 连接该 foundation 中的信号,使团队能够更快地解决问题,最大化 GPU 投资回报率,并充满信心地从试点扩展到生产。”

在此处了解有关 Virtana AI 工厂可观测性的更多信息。

关于 Virtana

Virtana 为混合多云环境提供统一的可观测平台,具备覆盖应用、服务、数据管道、GPU、CPU、网络和存储的全栈 AI 可观测性。基于高保真数据驱动,专为智能体 AI 系统设计,Virtana 提供跨基础设施和 AI 工作负载的端到端可观测性,实时关联性能、成本和系统行为。通过提供跨分布式系统的可见性和控制,Virtana 使组织能够优化性能、减少浪费和成本、增强弹性,并以规模和治理效率运营 AI 基础设施。受到全球 2000 强企业和公共部门的信赖,Virtana 支持跨多云、本地和边缘环境的关键任务运营。

来源:Virtana