AI News HubLIVE
站內改寫3 分鐘閱讀

Virtana 將 AI 工廠可觀測性擴充套件到 Dell AI 工廠

Virtana 宣佈為 Dell AI 工廠環境提供 AI 工廠可觀測性,整合戴爾 PowerEdge、PowerScale、ObjectScale、高速網路和 Smart Fabric Manager。該解決方案提供跨堆疊的端到端可視性,幫助團隊將基礎設施效能與 AI 結果關聯起來。調查顯示,近 60% 的企業無法自動識別 AI 工作負載告警的根因。

來源AIwire作者: Andrew Jolly

加利福尼亞州帕洛阿爾託,2026 年 5 月 13 日 — Virtana 今日宣佈為 Dell AI 工廠環境提供 AI 工廠可觀測性,將其 AI 工廠可觀測平臺擴充套件到業界最廣泛部署的企業 AI 基礎設施堆疊之一。該整合覆蓋 Dell PowerEdge 計算、PowerScale 和 ObjectScale 儲存、高速網路結構(包括 InfiniBand、乙太網和 NVLink)以及戴爾的 Smart Fabric Manager(SFM)編排層。

隨著企業部署 Dell AI Factory 來大規模執行 GPU 密集型訓練和推理,運營挑戰從基礎設施採購轉向基礎設施效能:不僅要了解元件是否在執行,還要了解系統是否高效地產生成果。Virtana 直接應對這一挑戰,為基礎設施和 AI 平臺團隊提供跨 Dell AI Factory 堆疊每一層的端到端可見性和控制。在建立了與 NVIDIA 和 Nutanix 的深度整合後,Virtana 繼續將全棧可觀測性擴充套件到企業大規模構建和執行 AI 的主要生態系統環境。

“Dell AI Factory 為企業大規模執行 AI 提供了世界一流的 foundation。每個組織面臨的挑戰,無論平臺如何,都是將基礎設施效能與實際 AI 成果聯絡起來,”Virtana 執行長 Paul Appleby 表示。“Virtana 解決了這個問題。我們為 Dell AI Factory 客戶提供端到端可見性,讓他們瞭解 GPU 是否產生價值、存在哪些約束以及如何最佳化系統以從投資中獲得更多收益。”

Virtana 的 2026 年 AI 工廠現狀調查(針對企業 AI 基礎設施領導者)強調了緊迫性:近 60% 的企業無法在 AI 工作負載告警觸發時自動跨基礎設施域識別根本原因。這些故障很少由單個元件引起,而是源於系統級約束,如 GPU 爭用、網路飽和、儲存延遲和緊密耦合堆疊中錯誤分配的容量,這些是單個監控工具無法檢測到的。

Virtana 提供對映到 Dell AI Factory 的全棧可觀測性

Virtana AI 工廠可觀測性原生整合到 Dell AI Factory 架構的每一層。Virtana 並非增加遙測資料量,而是連線整個堆疊的訊號,並透過在一個操作檢視中關聯 GPU 效能與儲存 I/O、網路結構吞吐量、工作負載編排和 AI 模型輸出來解釋系統行為的原因。

“智慧體應用架構需要重新理解堆疊,從基礎設施到 AI,再到構成即時運營的數以千計的決策,”IDC 研究總監 Shannon Kalvar 表示。“成功的組織嚴重依賴於一個由值得信賴的合作伙伴組成的生態系統,這些合作伙伴圍繞一個提供可操作洞察以塑造未來結果的定向平面進行協調。”

Virtana 在 Dell AI Factory 堆疊中提供的 AI 工廠可觀測性功能包括:

GPU 和計算效能(跨 PowerEdge 基礎設施):將利用率對映到工作負載輸出,暴露空閒和錯誤分配的容量,並將 GPU 效能與上下游依賴關係相關聯。

儲存可觀測性(跨 PowerScale 和 ObjectScale):識別直接影響訓練和推理的 I/O 延遲,將資料管道效能與模型減速相關聯,並使儲存瓶頸可見且可操作。

網路結構智慧(跨 InfiniBand、乙太網和 NVLink):檢測 GPU 叢集間的東西向擁塞,將結構效能與作業延遲相關聯,並識別限制分散式訓練環境擴充套件效率的約束。

透過 SFM 整合實現叢集和結構管理可見性:顯示工作負載放置行為,並提供潛在不平衡或低效的方向性洞察,而無需跨工具進行深度手動關聯。

來自 iDRAC 遙測的節點級硬體智慧:將電源、散熱和健康訊號與系統影響相關聯,以區分硬體問題與工作負載或編排問題。

AI 工作負載和成本最佳化:將 LLM 行為、令牌使用和延遲與基礎設施效能相關聯,將每令牌成本對映到實際基礎設施消耗,並實現對 AI 經濟學的真正最佳化。

“大規模的 AI 工作負載本質上是複雜的;它們跨越 GPU、儲存、網路和編排。效能取決於所有這些層如何互動,”Virtana 首席產品官 Amitkumar Rathi 表示。“Dell AI Factory 為企業提供了一個強大、整合的 foundation。Virtana 連線該 foundation 中的訊號,使團隊能夠更快地解決問題,最大化 GPU 投資回報率,並充滿信心地從試點擴充套件到生產。”

在此處瞭解有關 Virtana AI 工廠可觀測性的更多資訊。

關於 Virtana

Virtana 為混合多雲環境提供統一的可觀測平臺,具備覆蓋應用、服務、資料管道、GPU、CPU、網路和儲存的全棧 AI 可觀測性。基於高保真資料驅動,專為智慧體 AI 系統設計,Virtana 提供跨基礎設施和 AI 工作負載的端到端可觀測性,即時關聯效能、成本和系統行為。透過提供跨分散式系統的可見性和控制,Virtana 使組織能夠最佳化效能、減少浪費和成本、增強彈性,並以規模和治理效率運營 AI 基礎設施。受到全球 2000 強企業和公共部門的信賴,Virtana 支援跨多雲、本地和邊緣環境的關鍵任務運營。

來源:Virtana