2026-06-30 21:00 UTC+8站內改寫4 分鐘閱讀更新: 2026-06-30 21:09 UTC+8

進入Omniverse：通過合成數據和微調提高視覺AI代理準確性的三種工作流程

視覺AI代理正成為將物理世界視頻數據轉化為工廠、城市等環境運營智能的實用方式，但面臨數據缺口、微調專業知識和複雜組裝等挑戰。NVIDIA Metropolis代理技能和藍圖結合Omniverse的OpenUSD模擬和合成數據生成，提供可重用工作流。文章通過康寧、Linker Vision和Foxconn三個案例展示瞭如何生成缺陷數據、擴展場景覆蓋並部署視頻分析代理。

來源NVIDIA Blog作者: Esther Lee

編者按：本文是“進入Omniverse”系列的一部分，該系列聚焦開發人員、3D從業者和企業如何利用OpenUSD和NVIDIA Omniverse的最新進展轉變其工作流程。

視覺AI代理正成為自動將物理世界視頻數據轉化為工廠、城市、倉庫和交通系統運營智能的實用方式。隨着越來越多的AI工作負載轉移到數據生成的位置，這一轉變正在加速。Gartner預測，到2028年，超過三分之二的企業管理數據將在數據中心或雲之外創建和處理，到2029年，全球超過三分之二的企業將部署邊緣AI，而2025年這一比例僅為10%。但更多的邊緣數據並不會自動產生更多的智能。根據同一份Gartner報告，多達90%的現有邊緣數據未得到處理。

將這些數據轉化為有用的行動需要能夠理解視頻、適應現實世界條件並將洞察連接到運營工作流程的視覺AI代理。這些代理通常在攝像頭、機器和傳感器附近運行，模型必須滿足延遲、功耗、成本和連接性要求，同時適應特定站點條件。為了構建這些代理，開發人員需要可重複的方法來生成訓練數據、微調模型並在邊緣和雲環境中部署代理視頻應用程序。

NVIDIA Metropolis代理技能和藍圖為開發人員提供了可重用的工作流程，以構建、操作和優化視覺AI代理。在模擬和合成數據方面，通用場景描述（OpenUSD）提供了一個描述、組合和重用3D世界的通用框架。基於OpenUSD，NVIDIA Omniverse庫幫助團隊構建模擬、合成數據生成和數字孿生工作流程，這些工作流程可以對真實世界環境進行建模，並擴展照明、天氣、交通模式、攝像機角度、遮擋和罕見事件等條件下的場景覆蓋。

視覺AI代理項目可能遇到的障礙

隨着組織向自主視覺代理邁進，通常會遇到三個挑戰：

數據缺口導致精度停滯：視覺AI代理需要發現罕見缺陷、異常事件和變化的環境。例如，在製造業中，檢測模型可能在常見劃痕或凹痕上表現良好，但難以檢測到訓練數據中未出現的新發絲裂紋。

缺乏微調專業知識：一旦團隊識別出性能差距，改進模型很少是簡單的交接。微調需要標記數據集、訓練配置、實驗跟蹤、評估以及關於目標用例是否有所改進的決策。許多構建視覺AI代理的組織沒有大型內部機器學習團隊來快速管理這一過程，尤其是在多個站點、產品或攝像頭視圖的情況下。

複雜且耗時的代理組裝工作流程：部署視覺AI代理不僅需要運行推理。開發人員必須拼接視頻管道、AI模型、元數據、嵌入、索引、搜索、警報、報告和系統集成。針對特定環境定製該工作流程會顯著增加時間，並需要專業知識。沒有OpenUSD的共享場景描述層，團隊每次條件或部署站點變化時都必須從頭重建3D環境。

視覺AI代理的全生命週期方法

NVIDIA代理技能和藍圖——與用於OpenUSD模擬和合成數據生成的NVIDIA Omniverse、用於模型開發和視頻AI部署的NVIDIA Metropolis一起使用——為開發人員提供了這些工作流程關鍵部分的可重用起點：缺陷圖像生成技能有助於創建合成缺陷數據；視頻數據增強技能有助於擴展場景覆蓋；NVIDIA TAO技能支持模型微調；NVIDIA視頻搜索和摘要（VSS）技能有助於將視頻理解轉化為可部署的工作流程，用於警報、報告、流管理等。開發人員可以利用這些可重用工作流程更快地生成數據、改進模型並部署視覺AI代理。

視覺檢測：生成生產線上缺失的數據

在製造業中，工廠越成功地防止缺陷，收集足夠的缺陷示例來訓練下一個檢測模型就越困難。Roboflow正在將NVIDIA缺陷圖像生成技能和NVIDIA Cosmos世界基礎模型集成到其視覺AI平台中，以便在真實訓練數據稀缺時為Corning等客户生成合成缺陷圖像，實現近乎完美的檢測性能，同時顯著減少每日手動圖像審查的需求。在與Corning光纖製造工程團隊進行的基準測試中，僅使用8張真實缺陷圖像並輔以NVIDIA缺陷圖像生成技能生成的合成數據進行訓練的模型，在最困難的缺陷類別上達到了95%的平均精度和完美的召回率。這一性能超過了僅使用真實數據訓練的基線模型，有效地將一個多個季度的檢測項目壓縮到幾天內完成。

智慧城市：從視頻分析到自主運營

大規模城市運營展示了為什麼視覺AI代理需要連接的工作流程，而不僅僅是推理。Linker Vision正在利用NVIDIA Metropolis VSS藍圖構建智慧城市AI系統，以加速城市基礎設施中視頻推理代理的部署。在該工作流程中，VSS技能有助於將常見的視頻AI任務（如搜索、摘要、警報、報告和流管理）打包成可重用的代理可執行工作流程。基於OpenUSD的NVIDIA Omniverse數字孿生有助於模擬城市環境，並測試視覺AI系統如何響應各種交通模式、天氣條件、緊急事件和基礎設施變化。Linker Vision使用NVIDIA Cosmos進行視頻數據增強，並使用NVIDIA TAO進行Cosmos模型微調。在高雄，Linker Vision使用VSS藍圖將開發工作量減少了85%，並將事件響應時間縮短了高達80%。其更新的AI-GRID擴展基於此方法，使用NVIDIA NemoClaw藍圖為安全的代理AI提供支持，支持城市和交通環境中的自主視頻推理。

工業運營：對正在發生的工作進行推理

在工業環境中，挑戰不僅在於檢測視頻幀中出現的內容。團隊需要能夠理解工作是否正確執行、將執行情況與標準操作程序進行比較、並在缺陷向下游移動之前產生洞察的代理。在富士康，DeepHow的實時標準操作程序驗證代理使用NVIDIA Metropolis VSS藍圖作為代理視頻工作流程層，用於跨運營環境的搜索、摘要和分析。NVIDIA Cosmos提供了推理能力，幫助代理解釋複雜的人類活動和工作序列（例如組裝步驟是否按正確順序執行）。該解決方案已在NVIDIA GB300服務器生產線上使用，將首次通過良率提高了3%，在關鍵SOP步驟的微動作理解中實現了99%的任務級準確性，並通過幫助團隊更早發現問題減少了重複工作。

要了解開發人員如何構建和部署視頻分析AI代理，請觀看關於使用NVIDIA VSS技能和編碼代理的技術演示。探索NVIDIA代理技能和藍圖，以構建、操作和優化視頻分析AI代理。

參考來源：Gartner，Predicts 2026: Physical AI Pushes I&O to the Edge，2026年3月3日。