Omniverseへようこそ:合成データとファインチューニングでビジョンAIエージェントの精度を向上させる3つのワークフロー
ビジョンAIエージェントは、工場や都市などでビデオデータから運用知能を得る方法として注目されていますが、データ不足、微調整の専門知識不足、複雑な組み立てワークフローといった課題があります。NVIDIA Metropolisエージェントスキルとブループリントは、OmniverseのOpenUSDベースのシミュレーションと合成データ生成と組み合わせることで、再利用可能なワークフローを提供します。この記事では、Corningが合成欠陥画像でほぼ完璧な検出を達成した事例、Linker Visionがスマートシティで開発労力を削減した事例、FoxconnがDeepHowのリアルタイムSOP検証エージェントで歩留まりを向上させた事例の3つを詳しく紹介します。
編集者注:この記事は「Into the Omniverse」シリーズの一部であり、開発者、3D実務者、企業がOpenUSDとNVIDIA Omniverseの最新の進歩を活用してワークフローを変革する方法に焦点を当てています。
ビジョンAIエージェントは、物理世界からのビデオデータを工場、都市、倉庫、交通システムの運用知能に自動的に変換する実用的な方法になりつつあります。このシフトは、より多くのAIワークロードがデータ生成の場所に近づくにつれて加速しています。Gartnerは、2028年までに企業管理データの3分の2以上がデータセンターやクラウドの外部で作成・処理され、2029年までに世界の企業の3分の2以上がエッジAIを導入すると予測しています(2025年の10%から増加)。しかし、エッジデータが増えても自動的により多くの知能が生まれるわけではありません。同じGartnerレポートによると、既存のエッジデータの最大90%は未処理のままです。
そのデータを有用な行動に変えるには、ビデオを理解し、現実世界の条件に適応し、洞察を運用ワークフローに結び付けるビジョンAIエージェントが必要です。これらのエージェントは多くの場合、カメラ、機械、センサーの近くで動作し、モデルはレイテンシ、電力、コスト、接続性の要件を満たすと同時に、サイト固有の条件に適応する必要があります。そのようなエージェントを構築するために、開発者はトレーニングデータを生成し、モデルを微調整し、エッジおよびクラウド環境全体でエージェントビデオアプリケーションを展開するための反復可能な方法を必要としています。
NVIDIA Metropolisエージェントスキルとブループリントは、開発者にそのライフサイクル全体にわたってビジョンAIエージェントを構築、運用、最適化するための再利用可能なワークフローを提供します。シミュレーションと合成データの側面では、Universal Scene Description(OpenUSD)が3Dワールドを記述、構成、再利用するための共通フレームワークを提供します。OpenUSDに基づくNVIDIA Omniverseライブラリは、チームが現実世界の環境をモデル化し、照明、天候、交通パターン、カメラアングル、遮蔽、レアイベントなどの条件にわたってシナリオカバレッジを拡大するシミュレーション、合成データ生成、デジタルツインワークフローを構築するのに役立ちます。
ビジョンAIエージェントプロジェクトが行き詰まる可能性がある点
組織が自律型ビジョンエージェントに移行するにつれて、3つの課題がよく発生します。
- データギャップによる精度の停滞:ビジョンAIエージェントは、まれな欠陥、異常イベント、変化する環境を発見する必要があります。例えば、製造業では、検査モデルが一般的な傷やへこみでは良好に機能するかもしれませんが、トレーニングデータにない新しいヘアラインクラックでは苦労する可能性があります。
- 微調整の専門知識の不足:チームがパフォーマンスのギャップを特定したとしても、モデルの改善は単純な引き継ぎではほとんどありません。微調整には、ラベル付きデータセット、トレーニング構成、実験追跡、評価、および対象ユースケースの改善の有無に関する判断が必要です。ビジョンAIエージェントを構築する多くの組織は、特に多くのサイト、製品、またはカメラビューにわたって、そのプロセスを迅速に管理するための大規模な社内機械学習チームを持っていません。
- 複雑で時間のかかるエージェント組み立てワークフロー:ビジョンAIエージェントの展開には、推論の実行だけでは不十分です。開発者は、ビデオパイプライン、AIモデル、メタデータ、埋め込み、インデックス、検索、アラート、レポート、システム統合をつなぎ合わせる必要があります。特定の環境に合わせてそのワークフローをカスタマイズするには、かなりの時間がかかり、専門知識が必要です。OpenUSDの共有シーン記述レイヤーがなければ、チームは条件や展開サイトが変更されるたびに3D環境をゼロから再構築する必要があります。
ビジョンAIエージェントへのフルライフサイクルアプローチ
NVIDIAエージェントスキルとブループリントは、OpenUSDベースのシミュレーションと合成データ生成のためのNVIDIA Omniverse、モデル開発とビデオAI展開のためのNVIDIA Metropolisとともに使用することで、開発者にこれらのワークフローの主要部分の再利用可能な出発点を提供します。欠陥画像生成スキルは合成欠陥データの作成に役立ち、ビデオデータ拡張スキルはシナリオカバレッジの拡大に役立ち、NVIDIA TAOスキルはモデルの微調整を可能にし、NVIDIAビデオ検索と要約(VSS)スキルは、アラート、レポート、ストリーム管理などのための展開可能なワークフローにビデオ理解を変換するのに役立ちます。開発者は、すべてのステップをゼロから再構築する代わりに、これらの再利用可能なワークフローを使用して、より迅速にデータを生成し、モデルを改善し、ビジョンAIエージェントを展開できます。
外観検査:生産ラインにないデータを生成する
製造業では、工場が欠陥を防ぐことに成功すればするほど、次の検査モデルをトレーニングするための欠陥例を十分に収集することが難しくなります。Roboflowは、NVIDIA欠陥画像生成スキルとNVIDIA Cosmos世界基盤モデルを自社のビジョンAIプラットフォームに統合し、実際のトレーニングデータが不足している場合にCorningのような顧客向けに合成欠陥画像を生成し、ほぼ完璧な検出パフォーマンスを実現すると同時に、毎日の手動画像レビューの必要性を大幅に削減しています。Corningの光ファイバー製造エンジニアリングチームと実施したベンチマークでは、わずか8枚の実際の欠陥画像をNVIDIA欠陥画像生成スキルで生成された合成データで補強してトレーニングしたモデルが、最も困難な欠陥クラスで平均精度95%と完全な再現率を達成しました。このパフォーマンスは、実際のデータのみでトレーニングされたベースラインモデルを上回り、複数四半期に及ぶ検査プロジェクトをわずか数日に圧縮しました。
スマートシティ:ビデオ分析から自律運用へ
大規模な都市運用は、ビジョンAIエージェントが推論だけでなく接続されたワークフローを必要とする理由を示しています。Linker Visionは、NVIDIA Metropolis VSSブループリントを使用してスマートシティAIシステムを構築し、都市インフラ全体でのビデオ推論エージェントの展開を加速しています。このワークフローでは、VSSスキルは検索、要約、アラート、レポート、ストリーム管理などの一般的なビデオAIタスクを再利用可能なエージェント実行可能ワークフローにパッケージ化するのに役立ちます。OpenUSDベースのNVIDIA Omniverseデジタルツインは、都市環境をモデル化し、ビジョンAIシステムがさまざまな交通パターン、気象条件、緊急事態、インフラ変更にどのように応答するかをテストするのに役立ちます。Linker Visionは、ビデオデータ拡張にNVIDIA Cosmosを、Cosmosモデルの微調整にNVIDIA TAOを使用しています。高雄では、Linker VisionはVSSブループリントを使用して開発労力を85%削減し、インシデント対応時間を最大80%短縮しました。新しいAI-GRID拡張は、このアプローチをNVIDIA NemoClawブループリントと組み合わせてセキュアなエージェントAIをサポートし、都市および交通環境での自律ビデオ推論を可能にします。
産業運用:作業中の作業を推論する
産業環境では、ビデオフレームに表示されるものを検出するだけが課題ではありません。チームには、作業が正しく実行されているかどうかを理解し、実行状況を標準操作手順と比較し、欠陥が下流に移動する前に洞察を生成できるエージェントが必要です。Foxconnでは、DeepHowのリアルタイム標準操作手順検証エージェントが、NVIDIA Metropolis VSSブループリントをエージェントビデオワークフローレイヤーとして使用し、運用環境全体での検索、要約、分析を行います。NVIDIA Cosmosは、エージェントが人間の活動や作業シーケンス(組み立て手順が正しい順序で実行されているかどうかなど)を文脈に沿って解釈するのに役立つ推論機能を提供します。このソリューションはNVIDIA GB300サーバー生産ラインで使用され、初回歩留まりを3%向上させ、重要なSOPステップのマイクロアクション理解において99%のタスクレベル精度を達成し、問題を早期に発見することで冗長な作業を削減しました。
開発者がビデオ分析AIエージェントを構築および展開する方法を確認するには、NVIDIA VSSスキルとコーディングエージェントを使用したテクニカルウォークスルーをご覧ください。NVIDIAエージェントスキルとブループリントを活用して、ビデオ分析AIエージェントを構築、運用、最適化してください。
出典:Gartner、Predicts 2026: Physical AI Pushes I&O to the Edge、2026年3月3日。