Virtana 將 AI 工廠可觀測性擴展到 Dell AI 工廠
Virtana 宣佈為 Dell AI 工廠環境提供 AI 工廠可觀測性,集成戴爾 PowerEdge、PowerScale、ObjectScale、高速網絡和 Smart Fabric Manager。該解決方案提供跨堆棧的端到端可視性,幫助團隊將基礎設施性能與 AI 結果關聯起來。調查顯示,近 60% 的企業無法自動識別 AI 工作負載告警的根因。
加利福尼亞州帕洛阿爾託,2026 年 5 月 13 日 — Virtana 今日宣佈為 Dell AI 工廠環境提供 AI 工廠可觀測性,將其 AI 工廠可觀測平台擴展到業界最廣泛部署的企業 AI 基礎設施堆棧之一。該集成覆蓋 Dell PowerEdge 計算、PowerScale 和 ObjectScale 存儲、高速網絡結構(包括 InfiniBand、以太網和 NVLink)以及戴爾的 Smart Fabric Manager(SFM)編排層。
隨着企業部署 Dell AI Factory 來大規模運行 GPU 密集型訓練和推理,運營挑戰從基礎設施採購轉向基礎設施性能:不僅要了解組件是否在運行,還要了解系統是否高效地產生成果。Virtana 直接應對這一挑戰,為基礎設施和 AI 平台團隊提供跨 Dell AI Factory 堆棧每一層的端到端可見性和控制。在建立了與 NVIDIA 和 Nutanix 的深度集成後,Virtana 繼續將全棧可觀測性擴展到企業大規模構建和運行 AI 的主要生態系統環境。
“Dell AI Factory 為企業大規模運行 AI 提供了世界一流的 foundation。每個組織面臨的挑戰,無論平台如何,都是將基礎設施性能與實際 AI 成果聯繫起來,”Virtana 首席執行官 Paul Appleby 表示。“Virtana 解決了這個問題。我們為 Dell AI Factory 客户提供端到端可見性,讓他們瞭解 GPU 是否產生價值、存在哪些約束以及如何優化系統以從投資中獲得更多收益。”
Virtana 的 2026 年 AI 工廠現狀調查(針對企業 AI 基礎設施領導者)強調了緊迫性:近 60% 的企業無法在 AI 工作負載告警觸發時自動跨基礎設施域識別根本原因。這些故障很少由單個組件引起,而是源於系統級約束,如 GPU 爭用、網絡飽和、存儲延遲和緊密耦合堆棧中錯誤分配的容量,這些是單個監控工具無法檢測到的。
Virtana 提供映射到 Dell AI Factory 的全棧可觀測性
Virtana AI 工廠可觀測性原生集成到 Dell AI Factory 架構的每一層。Virtana 並非增加遙測數據量,而是連接整個堆棧的信號,並通過在一個操作視圖中關聯 GPU 性能與存儲 I/O、網絡結構吞吐量、工作負載編排和 AI 模型輸出來解釋系統行為的原因。
“智能體應用架構需要重新理解堆棧,從基礎設施到 AI,再到構成實時運營的數以千計的決策,”IDC 研究總監 Shannon Kalvar 表示。“成功的組織嚴重依賴於一個由值得信賴的合作伙伴組成的生態系統,這些合作伙伴圍繞一個提供可操作洞察以塑造未來結果的定向平面進行協調。”
Virtana 在 Dell AI Factory 堆棧中提供的 AI 工廠可觀測性功能包括:
GPU 和計算性能(跨 PowerEdge 基礎設施):將利用率映射到工作負載輸出,暴露空閒和錯誤分配的容量,並將 GPU 性能與上下游依賴關係相關聯。
存儲可觀測性(跨 PowerScale 和 ObjectScale):識別直接影響訓練和推理的 I/O 延遲,將數據管道性能與模型減速相關聯,並使存儲瓶頸可見且可操作。
網絡結構智能(跨 InfiniBand、以太網和 NVLink):檢測 GPU 集羣間的東西向擁塞,將結構性能與作業延遲相關聯,並識別限制分佈式訓練環境擴展效率的約束。
通過 SFM 集成實現集羣和結構管理可見性:顯示工作負載放置行為,並提供潛在不平衡或低效的方向性洞察,而無需跨工具進行深度手動關聯。
來自 iDRAC 遙測的節點級硬件智能:將電源、散熱和健康信號與系統影響相關聯,以區分硬件問題與工作負載或編排問題。
AI 工作負載和成本優化:將 LLM 行為、令牌使用和延遲與基礎設施性能相關聯,將每令牌成本映射到實際基礎設施消耗,並實現對 AI 經濟學的真正優化。
“大規模的 AI 工作負載本質上是複雜的;它們跨越 GPU、存儲、網絡和編排。性能取決於所有這些層如何交互,”Virtana 首席產品官 Amitkumar Rathi 表示。“Dell AI Factory 為企業提供了一個強大、集成的 foundation。Virtana 連接該 foundation 中的信號,使團隊能夠更快地解決問題,最大化 GPU 投資回報率,並充滿信心地從試點擴展到生產。”
在此處瞭解有關 Virtana AI 工廠可觀測性的更多信息。
關於 Virtana
Virtana 為混合多雲環境提供統一的可觀測平台,具備覆蓋應用、服務、數據管道、GPU、CPU、網絡和存儲的全棧 AI 可觀測性。基於高保真數據驅動,專為智能體 AI 系統設計,Virtana 提供跨基礎設施和 AI 工作負載的端到端可觀測性,實時關聯性能、成本和系統行為。通過提供跨分佈式系統的可見性和控制,Virtana 使組織能夠優化性能、減少浪費和成本、增強彈性,並以規模和治理效率運營 AI 基礎設施。受到全球 2000 強企業和公共部門的信賴,Virtana 支持跨多雲、本地和邊緣環境的關鍵任務運營。
來源:Virtana