进入Omniverse:通过合成数据和微调提高视觉AI代理准确性的三种工作流程
视觉AI代理正成为将物理世界视频数据转化为工厂、城市等环境运营智能的实用方式,但面临数据缺口、微调专业知识和复杂组装等挑战。NVIDIA Metropolis代理技能和蓝图结合Omniverse的OpenUSD模拟和合成数据生成,提供可重用工作流。文章通过康宁、Linker Vision和Foxconn三个案例展示了如何生成缺陷数据、扩展场景覆盖并部署视频分析代理。
编者按:本文是“进入Omniverse”系列的一部分,该系列聚焦开发人员、3D从业者和企业如何利用OpenUSD和NVIDIA Omniverse的最新进展转变其工作流程。
视觉AI代理正成为自动将物理世界视频数据转化为工厂、城市、仓库和交通系统运营智能的实用方式。随着越来越多的AI工作负载转移到数据生成的位置,这一转变正在加速。Gartner预测,到2028年,超过三分之二的企业管理数据将在数据中心或云之外创建和处理,到2029年,全球超过三分之二的企业将部署边缘AI,而2025年这一比例仅为10%。但更多的边缘数据并不会自动产生更多的智能。根据同一份Gartner报告,多达90%的现有边缘数据未得到处理。
将这些数据转化为有用的行动需要能够理解视频、适应现实世界条件并将洞察连接到运营工作流程的视觉AI代理。这些代理通常在摄像头、机器和传感器附近运行,模型必须满足延迟、功耗、成本和连接性要求,同时适应特定站点条件。为了构建这些代理,开发人员需要可重复的方法来生成训练数据、微调模型并在边缘和云环境中部署代理视频应用程序。
NVIDIA Metropolis代理技能和蓝图为开发人员提供了可重用的工作流程,以构建、操作和优化视觉AI代理。在模拟和合成数据方面,通用场景描述(OpenUSD)提供了一个描述、组合和重用3D世界的通用框架。基于OpenUSD,NVIDIA Omniverse库帮助团队构建模拟、合成数据生成和数字孪生工作流程,这些工作流程可以对真实世界环境进行建模,并扩展照明、天气、交通模式、摄像机角度、遮挡和罕见事件等条件下的场景覆盖。
视觉AI代理项目可能遇到的障碍
随着组织向自主视觉代理迈进,通常会遇到三个挑战:
- 数据缺口导致精度停滞:视觉AI代理需要发现罕见缺陷、异常事件和变化的环境。例如,在制造业中,检测模型可能在常见划痕或凹痕上表现良好,但难以检测到训练数据中未出现的新发丝裂纹。
- 缺乏微调专业知识:一旦团队识别出性能差距,改进模型很少是简单的交接。微调需要标记数据集、训练配置、实验跟踪、评估以及关于目标用例是否有所改进的决策。许多构建视觉AI代理的组织没有大型内部机器学习团队来快速管理这一过程,尤其是在多个站点、产品或摄像头视图的情况下。
- 复杂且耗时的代理组装工作流程:部署视觉AI代理不仅需要运行推理。开发人员必须拼接视频管道、AI模型、元数据、嵌入、索引、搜索、警报、报告和系统集成。针对特定环境定制该工作流程会显著增加时间,并需要专业知识。没有OpenUSD的共享场景描述层,团队每次条件或部署站点变化时都必须从头重建3D环境。
视觉AI代理的全生命周期方法
NVIDIA代理技能和蓝图——与用于OpenUSD模拟和合成数据生成的NVIDIA Omniverse、用于模型开发和视频AI部署的NVIDIA Metropolis一起使用——为开发人员提供了这些工作流程关键部分的可重用起点:缺陷图像生成技能有助于创建合成缺陷数据;视频数据增强技能有助于扩展场景覆盖;NVIDIA TAO技能支持模型微调;NVIDIA视频搜索和摘要(VSS)技能有助于将视频理解转化为可部署的工作流程,用于警报、报告、流管理等。开发人员可以利用这些可重用工作流程更快地生成数据、改进模型并部署视觉AI代理。
视觉检测:生成生产线上缺失的数据
在制造业中,工厂越成功地防止缺陷,收集足够的缺陷示例来训练下一个检测模型就越困难。Roboflow正在将NVIDIA缺陷图像生成技能和NVIDIA Cosmos世界基础模型集成到其视觉AI平台中,以便在真实训练数据稀缺时为Corning等客户生成合成缺陷图像,实现近乎完美的检测性能,同时显著减少每日手动图像审查的需求。在与Corning光纤制造工程团队进行的基准测试中,仅使用8张真实缺陷图像并辅以NVIDIA缺陷图像生成技能生成的合成数据进行训练的模型,在最困难的缺陷类别上达到了95%的平均精度和完美的召回率。这一性能超过了仅使用真实数据训练的基线模型,有效地将一个多个季度的检测项目压缩到几天内完成。
智慧城市:从视频分析到自主运营
大规模城市运营展示了为什么视觉AI代理需要连接的工作流程,而不仅仅是推理。Linker Vision正在利用NVIDIA Metropolis VSS蓝图构建智慧城市AI系统,以加速城市基础设施中视频推理代理的部署。在该工作流程中,VSS技能有助于将常见的视频AI任务(如搜索、摘要、警报、报告和流管理)打包成可重用的代理可执行工作流程。基于OpenUSD的NVIDIA Omniverse数字孪生有助于模拟城市环境,并测试视觉AI系统如何响应各种交通模式、天气条件、紧急事件和基础设施变化。Linker Vision使用NVIDIA Cosmos进行视频数据增强,并使用NVIDIA TAO进行Cosmos模型微调。在高雄,Linker Vision使用VSS蓝图将开发工作量减少了85%,并将事件响应时间缩短了高达80%。其更新的AI-GRID扩展基于此方法,使用NVIDIA NemoClaw蓝图为安全的代理AI提供支持,支持城市和交通环境中的自主视频推理。
工业运营:对正在发生的工作进行推理
在工业环境中,挑战不仅在于检测视频帧中出现的内容。团队需要能够理解工作是否正确执行、将执行情况与标准操作程序进行比较、并在缺陷向下游移动之前产生洞察的代理。在富士康,DeepHow的实时标准操作程序验证代理使用NVIDIA Metropolis VSS蓝图作为代理视频工作流程层,用于跨运营环境的搜索、摘要和分析。NVIDIA Cosmos提供了推理能力,帮助代理解释复杂的人类活动和工作序列(例如组装步骤是否按正确顺序执行)。该解决方案已在NVIDIA GB300服务器生产线上使用,将首次通过良率提高了3%,在关键SOP步骤的微动作理解中实现了99%的任务级准确性,并通过帮助团队更早发现问题减少了重复工作。
要了解开发人员如何构建和部署视频分析AI代理,请观看关于使用NVIDIA VSS技能和编码代理的技术演示。探索NVIDIA代理技能和蓝图,以构建、操作和优化视频分析AI代理。
参考来源:Gartner,Predicts 2026: Physical AI Pushes I&O to the Edge,2026年3月3日。