AI News HubLIVE
站内改写6 分で読了

Amazon Nova 2 Liteを使用した物体検出

この記事では、Amazon Nova 2 Liteを使用した物体検出の実装方法を説明します。Amazon Bedrock、AWS Lambda、Amazon API Gatewayを使用してアプリケーションをデプロイし、効果的なプロンプトの作成、構造化JSON出力の処理、結果の可視化を学びます。製造業、農業、物流における実用的なアプリケーションを探ります。

ソースAWS Machine Learning Blog著者: Robert Stolz

従来のコンピュータビジョンソリューションは多額の初期投資を必要とすることがよくあります。データパイプライン、モデルトレーニングインフラ、計算リソース、専任のデータサイエンスチームの構築は、小規模企業やチームにとっては困難です。Amazon Bedrockを通じて利用可能なAmazon Nova 2 Liteは、魅力的な代替ソリューションを提供します。このマルチモーダル基盤モデルは、自然言語プロンプトを使用して物体を検出し、トレーニングは不要です。「車両」「人」「へこみ」を指定するだけで、Novaは構造化JSON形式で正確なバウンディングボックス座標を返します。

この記事では、Amazon Nova 2 Liteを使用した物体検出の実装を順を追って説明します。Amazon Bedrock、AWS Lambda、Amazon API Gatewayを使用した物体検出アプリケーションのデプロイ方法を学びます。また、効果的なプロンプトの作成、構造化JSON出力の処理、結果の可視化方法も学びます。製造業、農業、物流における実用的なアプリケーションを探ります。

ソリューション概要

始める前に、以下の準備が必要です。

  • AWSアカウントと権限:有効なAWSアカウントでAmazon Bedrockアクセスが有効、bedrock:InvokeModelのIAM権限、リージョンでAmazon Nova 2 Liteモデルへのアクセス。
  • AWS CLIの設定(デプロイ用)。
  • 開発環境(ローカルテスト用):Python 3.8以降、AWS SDK for Python (Boto3) 1.28.0以降、Python Imaging Library (PIL/Pillow)。
  • インストールコマンド:pip install boto3 pillow

推定コスト

  • Amazon Bedrock:入力トークン1,000個あたり0.0003ドル、出力トークン1,000個あたり0.0025ドル。
  • 標準的な画像:約230入力トークン(約0.000069ドル/画像)、約200出力トークン(約0.0005ドル/画像)。
  • 例:10,000画像で約5.69ドル。
  • AWS Lambda、Amazon API Gateway:従量課金(テスト時は最小限)。
  • 所要時間:30〜45分。

物体検出ソリューションは4つの主要ステップで画像内の物体を識別および位置特定します。

  1. プロンプトエンジニアリング:検出する物体と期待されるJSON出力形式を指定するプロンプトを構造化。
  2. Amazon Bedrock:インフラ管理なしでAmazon Nova 2 LiteにアクセスするためにAmazon Bedrockを呼び出し、レスポンスからバウンディングボックス情報を抽出。
  3. 座標処理:Novaの正規化座標(0-1000スケール)をピクセル位置に変換。
  4. 可視化:検証のために画像上にバウンディングボックスを描画。

Amazon BedrockのConverse APIに画像と検出する物体のリストを送信します。Amazon Nova 2 Liteが画像を分析し、検出された各物体のバウンディングボックス座標を含むJSONレスポンスを返します。その後、画像の寸法に基づいて正規化座標(0-1000スケール)をピクセル位置に変換します。最後に、元の画像にバウンディングボックスを描画して結果を可視化します。

プロンプト

プロンプトエンジニアリングは正確な検出を達成する上で重要な役割を果たします。プロンプトテンプレートには、主要な要件を指定する注意深く作成された一連の指示が含まれています。テンプレート内の2つの変数elementsとschemaは、検出するオブジェクトタイプに基づいて動的に構築されるため、テンプレートを変更せずに任意のオブジェクトカテゴリを処理できます。

完全なプロンプト例はGitHubリポジトリを参照してください。

例:街路シーン検出

街路シーン画像でNova 2 Liteをテストしました。トレーニングや微調整なしで、「車両」と「一時停止標識」の2つのオブジェクトタイプを検出するようNovaに要求しました。図1に示すように、Novaは明らかなオブジェクトだけでなく、小さく、遠く、または部分的に隠れたオブジェクトも正確に検出します。バウンディングボックスはオブジェクトの境界にぴったりとフィットし、ギャップは最小限です。Novaは「車両」や「一時停止標識」などの基本的なオブジェクト名のみを使用してこの精度を達成しています。

クラウドへのデプロイ

Amazon BedrockはAmazon Nova 2 LiteへのAPIアクセスを提供するため、任意のAWSコンピューティングサービスから呼び出すことができます。ワークロードに最適なサービスを選択してください。イベント駆動型ワークロードやAPIエンドポイントには、AWS Lambdaが自動スケーリングと従量課金モデルを提供し、アイドルコストを排除します。ランタイム環境をより細かく制御する必要がある場合や長時間実行プロセスがある場合は、Amazon EC2が完全な柔軟性を提供します。コンテナベースのデプロイには、Amazon ECSまたはAmazon EKSを使用します。

どのコンピューティングサービスを選択しても、同じAmazon Bedrock Converse APIを呼び出してNovaモデルと対話します。この一貫性により、既存のインフラストラクチャに物体検出を統合したり、要件の変化に応じてコンピューティングプラットフォーム間を移行したりすることが容易になります。

物体検出アプリケーションの構築

Amazon Nova 2 Liteを使用した物体検出を示すサンプルサーバーレスWebアプリケーションを構築しました。この概念実証には、Webインターフェイス、セキュアなインフラストラクチャ、自動スケーリングが含まれています。数分で独自のAWSアカウントにデプロイできます。

このアプリケーションは、複数のAWSサービスが連携するサーバーレス優先アーキテクチャを採用しています。Amazon CloudFrontは、Origin Access Controlを通じてプライベートなAmazon S3バケットからシングルページアプリケーションを提供し、グローバル配信とHTTPS強制を実現します。ユーザーが画像をアップロードし、検出するオブジェクトを指定すると、フロントエンドがAmazon API Gatewayにリクエストを送信し、API GatewayがそれをAWS Lambda関数にルーティングします。

Lambda関数はオーケストレーションレイヤーとして機能し、Amazon BedrockのConverse APIを呼び出して画像と検出プロンプトをAmazon Nova 2 Liteに送信します。Novaは検出された各オブジェクトの正規化されたバウンディングボックス座標を返し、Lambda関数がそれをピクセル位置に変換し、画像に注釈付きボックスとして描画します。注釈付きの結果は同じ経路で戻されます:LambdaからAPI Gateway、そしてフロントエンドへ。ユーザーは検出されたオブジェクトが強調表示された画像を確認できます。

図2はサーバーレス物体検出サンプルアプリケーションのアーキテクチャを示しています。

自分で試す

完全なソースコード(AWS CDKインフラストラクチャ定義とLambda関数を含む)はGitHubリポジトリで入手できます。AWS CLIとAWS CDKをインストールし、Amazon BedrockコンソールでAmazon Nova 2 Liteへのアクセスを有効にした後、デプロイは簡単です。

このサーバーレスパターンは、Novaモデルを使用してAIアプリケーションを迅速に構築できることを示しています。すべてが Infrastructure as Code であるため、アプリケーションスタック全体をバージョン管理し、複数の環境やAWSアカウントに一貫してデプロイできます。

クリーンアップ

継続的な料金が発生しないように、このチュートリアルで作成したリソースを削除してください。

  • サンプルアプリケーションをデプロイした場合:cdk destroy を実行してCloudFormationスタックを削除し、リソースが削除されたことを確認します。
  • 手動クリーンアップ(必要な場合):S3バケットとその内容を削除、Lambda関数を削除、API Gatewayエンドポイントを削除、CloudFrontディストリビューションを削除。
  • コストに関する影響:Amazon Bedrock API呼び出しは従量課金で、継続的なインフラコストはありません。デプロイリソースを削除すると、API呼び出しを行った場合のみ料金が発生します。

実用的なアプリケーション

以下の例は、Amazon Nova 2 Liteが業界を超えた実際のユースケースにどのように適用されるかを示しています。

製造業の品質管理

金属加工施設では毎月10,000個の部品を処理しています。欠陥部品が出荷されると、返品と再作業に50〜200ドルのコストがかかります。従来のコンピュータビジョンモデルのトレーニングに多額の初期投資を行うことは、多くの場合困難です。Amazon Nova 2 Liteを使用すると、施設は品質検査を自動化できます。「傷」「へこみ」「さび跡」などの欠陥を指定すると、システムが自動的にそれらを識別します。部品あたり5枚の画像を分析する場合、月額約8ドルです。

精密農業

5,000エーカーの農場では、20週間の成長期に毎週ドローン画像を撮影し、作物の問題を早期に検出しています。早期検出により、化学物質の過剰散布や作物被害を防ぐことができます。農場では「病気の葉」「害虫被害」「菌類」を指定します。シーズンあたり120万枚の高解像度画像を処理するコストは約200ドルです。同じアプローチにより、GPS誘導機器が障害物(「車両」「機器」「破片」など)を検出し、自律的な圃場作業が可能になる可能性があります。

物流とフルフィルメント

配送センターでは、「破れた箱」「潰れたパッケージ」「水濡れ」を指定して損傷したパッケージを検出します。システムは自動的に検査用にアイテムをマークし、品質管理エリアにルーティングして、業務全体で一貫した基準を確保します。このアプローチは、在庫監視(「空の棚」「置き間違えたアイテム」など)や安全コンプライアンス(「ヘルメット」「安全ベスト」「安全メガネ」など)にも拡張でき、あらゆる規模の事業でコンピュータビジョンを利用可能にします。

結論

この記事では、Amazon Nova 2 Liteがどのように物体検出をアクセスしやすくするかを示しました。自然言語プロンプトでオブジェクト名を指定するだけで、数ヶ月ではなく数時間でコンピュータビジョンアプリケーションをデプロイでき、インフラストラクチャを管理する必要はありません。シングルAPIで物体検出パフォーマンスを提供し、従量課金のコスト構造で、機械学習の専門知識は不要です。

試してみる準備はできましたか?GitHubリポジトリからサンプルアプリケーションをデプロイするか、Amazon BedrockコンソールでAmazon Novaモデルを探索してください。