進入Omniverse:通過合成數據和微調提高視覺AI代理準確性的三種工作流程
視覺AI代理正成為將物理世界視頻數據轉化為工廠、城市等環境運營智能的實用方式,但面臨數據缺口、微調專業知識和複雜組裝等挑戰。NVIDIA Metropolis代理技能和藍圖結合Omniverse的OpenUSD模擬和合成數據生成,提供可重用工作流。文章通過康寧、Linker Vision和Foxconn三個案例展示瞭如何生成缺陷數據、擴展場景覆蓋並部署視頻分析代理。
編者按:本文是“進入Omniverse”系列的一部分,該系列聚焦開發人員、3D從業者和企業如何利用OpenUSD和NVIDIA Omniverse的最新進展轉變其工作流程。
視覺AI代理正成為自動將物理世界視頻數據轉化為工廠、城市、倉庫和交通系統運營智能的實用方式。隨着越來越多的AI工作負載轉移到數據生成的位置,這一轉變正在加速。Gartner預測,到2028年,超過三分之二的企業管理數據將在數據中心或雲之外創建和處理,到2029年,全球超過三分之二的企業將部署邊緣AI,而2025年這一比例僅為10%。但更多的邊緣數據並不會自動產生更多的智能。根據同一份Gartner報告,多達90%的現有邊緣數據未得到處理。
將這些數據轉化為有用的行動需要能夠理解視頻、適應現實世界條件並將洞察連接到運營工作流程的視覺AI代理。這些代理通常在攝像頭、機器和傳感器附近運行,模型必須滿足延遲、功耗、成本和連接性要求,同時適應特定站點條件。為了構建這些代理,開發人員需要可重複的方法來生成訓練數據、微調模型並在邊緣和雲環境中部署代理視頻應用程序。
NVIDIA Metropolis代理技能和藍圖為開發人員提供了可重用的工作流程,以構建、操作和優化視覺AI代理。在模擬和合成數據方面,通用場景描述(OpenUSD)提供了一個描述、組合和重用3D世界的通用框架。基於OpenUSD,NVIDIA Omniverse庫幫助團隊構建模擬、合成數據生成和數字孿生工作流程,這些工作流程可以對真實世界環境進行建模,並擴展照明、天氣、交通模式、攝像機角度、遮擋和罕見事件等條件下的場景覆蓋。
視覺AI代理項目可能遇到的障礙
隨着組織向自主視覺代理邁進,通常會遇到三個挑戰:
- 數據缺口導致精度停滯:視覺AI代理需要發現罕見缺陷、異常事件和變化的環境。例如,在製造業中,檢測模型可能在常見劃痕或凹痕上表現良好,但難以檢測到訓練數據中未出現的新發絲裂紋。
- 缺乏微調專業知識:一旦團隊識別出性能差距,改進模型很少是簡單的交接。微調需要標記數據集、訓練配置、實驗跟蹤、評估以及關於目標用例是否有所改進的決策。許多構建視覺AI代理的組織沒有大型內部機器學習團隊來快速管理這一過程,尤其是在多個站點、產品或攝像頭視圖的情況下。
- 複雜且耗時的代理組裝工作流程:部署視覺AI代理不僅需要運行推理。開發人員必須拼接視頻管道、AI模型、元數據、嵌入、索引、搜索、警報、報告和系統集成。針對特定環境定製該工作流程會顯著增加時間,並需要專業知識。沒有OpenUSD的共享場景描述層,團隊每次條件或部署站點變化時都必須從頭重建3D環境。
視覺AI代理的全生命週期方法
NVIDIA代理技能和藍圖——與用於OpenUSD模擬和合成數據生成的NVIDIA Omniverse、用於模型開發和視頻AI部署的NVIDIA Metropolis一起使用——為開發人員提供了這些工作流程關鍵部分的可重用起點:缺陷圖像生成技能有助於創建合成缺陷數據;視頻數據增強技能有助於擴展場景覆蓋;NVIDIA TAO技能支持模型微調;NVIDIA視頻搜索和摘要(VSS)技能有助於將視頻理解轉化為可部署的工作流程,用於警報、報告、流管理等。開發人員可以利用這些可重用工作流程更快地生成數據、改進模型並部署視覺AI代理。
視覺檢測:生成生產線上缺失的數據
在製造業中,工廠越成功地防止缺陷,收集足夠的缺陷示例來訓練下一個檢測模型就越困難。Roboflow正在將NVIDIA缺陷圖像生成技能和NVIDIA Cosmos世界基礎模型集成到其視覺AI平台中,以便在真實訓練數據稀缺時為Corning等客户生成合成缺陷圖像,實現近乎完美的檢測性能,同時顯著減少每日手動圖像審查的需求。在與Corning光纖製造工程團隊進行的基準測試中,僅使用8張真實缺陷圖像並輔以NVIDIA缺陷圖像生成技能生成的合成數據進行訓練的模型,在最困難的缺陷類別上達到了95%的平均精度和完美的召回率。這一性能超過了僅使用真實數據訓練的基線模型,有效地將一個多個季度的檢測項目壓縮到幾天內完成。
智慧城市:從視頻分析到自主運營
大規模城市運營展示了為什麼視覺AI代理需要連接的工作流程,而不僅僅是推理。Linker Vision正在利用NVIDIA Metropolis VSS藍圖構建智慧城市AI系統,以加速城市基礎設施中視頻推理代理的部署。在該工作流程中,VSS技能有助於將常見的視頻AI任務(如搜索、摘要、警報、報告和流管理)打包成可重用的代理可執行工作流程。基於OpenUSD的NVIDIA Omniverse數字孿生有助於模擬城市環境,並測試視覺AI系統如何響應各種交通模式、天氣條件、緊急事件和基礎設施變化。Linker Vision使用NVIDIA Cosmos進行視頻數據增強,並使用NVIDIA TAO進行Cosmos模型微調。在高雄,Linker Vision使用VSS藍圖將開發工作量減少了85%,並將事件響應時間縮短了高達80%。其更新的AI-GRID擴展基於此方法,使用NVIDIA NemoClaw藍圖為安全的代理AI提供支持,支持城市和交通環境中的自主視頻推理。
工業運營:對正在發生的工作進行推理
在工業環境中,挑戰不僅在於檢測視頻幀中出現的內容。團隊需要能夠理解工作是否正確執行、將執行情況與標準操作程序進行比較、並在缺陷向下游移動之前產生洞察的代理。在富士康,DeepHow的實時標準操作程序驗證代理使用NVIDIA Metropolis VSS藍圖作為代理視頻工作流程層,用於跨運營環境的搜索、摘要和分析。NVIDIA Cosmos提供了推理能力,幫助代理解釋複雜的人類活動和工作序列(例如組裝步驟是否按正確順序執行)。該解決方案已在NVIDIA GB300服務器生產線上使用,將首次通過良率提高了3%,在關鍵SOP步驟的微動作理解中實現了99%的任務級準確性,並通過幫助團隊更早發現問題減少了重複工作。
要了解開發人員如何構建和部署視頻分析AI代理,請觀看關於使用NVIDIA VSS技能和編碼代理的技術演示。探索NVIDIA代理技能和藍圖,以構建、操作和優化視頻分析AI代理。
參考來源:Gartner,Predicts 2026: Physical AI Pushes I&O to the Edge,2026年3月3日。