2026-06-30 21:00 UTC+8站内改写4 分钟阅读更新: 2026-06-30 21:09 UTC+8

进入Omniverse：通过合成数据和微调提高视觉AI代理准确性的三种工作流程

视觉AI代理正成为将物理世界视频数据转化为工厂、城市等环境运营智能的实用方式，但面临数据缺口、微调专业知识和复杂组装等挑战。NVIDIA Metropolis代理技能和蓝图结合Omniverse的OpenUSD模拟和合成数据生成，提供可重用工作流。文章通过康宁、Linker Vision和Foxconn三个案例展示了如何生成缺陷数据、扩展场景覆盖并部署视频分析代理。

来源NVIDIA Blog作者: Esther Lee

编者按：本文是“进入Omniverse”系列的一部分，该系列聚焦开发人员、3D从业者和企业如何利用OpenUSD和NVIDIA Omniverse的最新进展转变其工作流程。

视觉AI代理正成为自动将物理世界视频数据转化为工厂、城市、仓库和交通系统运营智能的实用方式。随着越来越多的AI工作负载转移到数据生成的位置，这一转变正在加速。Gartner预测，到2028年，超过三分之二的企业管理数据将在数据中心或云之外创建和处理，到2029年，全球超过三分之二的企业将部署边缘AI，而2025年这一比例仅为10%。但更多的边缘数据并不会自动产生更多的智能。根据同一份Gartner报告，多达90%的现有边缘数据未得到处理。

将这些数据转化为有用的行动需要能够理解视频、适应现实世界条件并将洞察连接到运营工作流程的视觉AI代理。这些代理通常在摄像头、机器和传感器附近运行，模型必须满足延迟、功耗、成本和连接性要求，同时适应特定站点条件。为了构建这些代理，开发人员需要可重复的方法来生成训练数据、微调模型并在边缘和云环境中部署代理视频应用程序。

NVIDIA Metropolis代理技能和蓝图为开发人员提供了可重用的工作流程，以构建、操作和优化视觉AI代理。在模拟和合成数据方面，通用场景描述（OpenUSD）提供了一个描述、组合和重用3D世界的通用框架。基于OpenUSD，NVIDIA Omniverse库帮助团队构建模拟、合成数据生成和数字孪生工作流程，这些工作流程可以对真实世界环境进行建模，并扩展照明、天气、交通模式、摄像机角度、遮挡和罕见事件等条件下的场景覆盖。

视觉AI代理项目可能遇到的障碍

随着组织向自主视觉代理迈进，通常会遇到三个挑战：

数据缺口导致精度停滞：视觉AI代理需要发现罕见缺陷、异常事件和变化的环境。例如，在制造业中，检测模型可能在常见划痕或凹痕上表现良好，但难以检测到训练数据中未出现的新发丝裂纹。

缺乏微调专业知识：一旦团队识别出性能差距，改进模型很少是简单的交接。微调需要标记数据集、训练配置、实验跟踪、评估以及关于目标用例是否有所改进的决策。许多构建视觉AI代理的组织没有大型内部机器学习团队来快速管理这一过程，尤其是在多个站点、产品或摄像头视图的情况下。

复杂且耗时的代理组装工作流程：部署视觉AI代理不仅需要运行推理。开发人员必须拼接视频管道、AI模型、元数据、嵌入、索引、搜索、警报、报告和系统集成。针对特定环境定制该工作流程会显著增加时间，并需要专业知识。没有OpenUSD的共享场景描述层，团队每次条件或部署站点变化时都必须从头重建3D环境。

视觉AI代理的全生命周期方法

NVIDIA代理技能和蓝图——与用于OpenUSD模拟和合成数据生成的NVIDIA Omniverse、用于模型开发和视频AI部署的NVIDIA Metropolis一起使用——为开发人员提供了这些工作流程关键部分的可重用起点：缺陷图像生成技能有助于创建合成缺陷数据；视频数据增强技能有助于扩展场景覆盖；NVIDIA TAO技能支持模型微调；NVIDIA视频搜索和摘要（VSS）技能有助于将视频理解转化为可部署的工作流程，用于警报、报告、流管理等。开发人员可以利用这些可重用工作流程更快地生成数据、改进模型并部署视觉AI代理。

视觉检测：生成生产线上缺失的数据

在制造业中，工厂越成功地防止缺陷，收集足够的缺陷示例来训练下一个检测模型就越困难。Roboflow正在将NVIDIA缺陷图像生成技能和NVIDIA Cosmos世界基础模型集成到其视觉AI平台中，以便在真实训练数据稀缺时为Corning等客户生成合成缺陷图像，实现近乎完美的检测性能，同时显著减少每日手动图像审查的需求。在与Corning光纤制造工程团队进行的基准测试中，仅使用8张真实缺陷图像并辅以NVIDIA缺陷图像生成技能生成的合成数据进行训练的模型，在最困难的缺陷类别上达到了95%的平均精度和完美的召回率。这一性能超过了仅使用真实数据训练的基线模型，有效地将一个多个季度的检测项目压缩到几天内完成。

智慧城市：从视频分析到自主运营

大规模城市运营展示了为什么视觉AI代理需要连接的工作流程，而不仅仅是推理。Linker Vision正在利用NVIDIA Metropolis VSS蓝图构建智慧城市AI系统，以加速城市基础设施中视频推理代理的部署。在该工作流程中，VSS技能有助于将常见的视频AI任务（如搜索、摘要、警报、报告和流管理）打包成可重用的代理可执行工作流程。基于OpenUSD的NVIDIA Omniverse数字孪生有助于模拟城市环境，并测试视觉AI系统如何响应各种交通模式、天气条件、紧急事件和基础设施变化。Linker Vision使用NVIDIA Cosmos进行视频数据增强，并使用NVIDIA TAO进行Cosmos模型微调。在高雄，Linker Vision使用VSS蓝图将开发工作量减少了85%，并将事件响应时间缩短了高达80%。其更新的AI-GRID扩展基于此方法，使用NVIDIA NemoClaw蓝图为安全的代理AI提供支持，支持城市和交通环境中的自主视频推理。

工业运营：对正在发生的工作进行推理

在工业环境中，挑战不仅在于检测视频帧中出现的内容。团队需要能够理解工作是否正确执行、将执行情况与标准操作程序进行比较、并在缺陷向下游移动之前产生洞察的代理。在富士康，DeepHow的实时标准操作程序验证代理使用NVIDIA Metropolis VSS蓝图作为代理视频工作流程层，用于跨运营环境的搜索、摘要和分析。NVIDIA Cosmos提供了推理能力，帮助代理解释复杂的人类活动和工作序列（例如组装步骤是否按正确顺序执行）。该解决方案已在NVIDIA GB300服务器生产线上使用，将首次通过良率提高了3%，在关键SOP步骤的微动作理解中实现了99%的任务级准确性，并通过帮助团队更早发现问题减少了重复工作。

要了解开发人员如何构建和部署视频分析AI代理，请观看关于使用NVIDIA VSS技能和编码代理的技术演示。探索NVIDIA代理技能和蓝图，以构建、操作和优化视频分析AI代理。

参考来源：Gartner，Predicts 2026: Physical AI Pushes I&O to the Edge，2026年3月3日。