AI News HubLIVE
サイト内リライト4 分で読了

世界を埋め込む:大規模な検索可能な航空画像のためのマルチモーダルAI

本稿では、マルチモーダル埋め込み、LLMによるキャプション生成、AWS上のベクター検索を利用して、航空画像ライブラリを自然言語で検索可能な知識ベースに変換する方法について説明します。Amazon BedrockとAmazon OpenSearch Serverlessで構築された5段階のパイプラインにより、さまざまな埋め込みモデル、融合戦略、キャプション手法、検索方法を評価します。実験では、Amazon Nova Multimodal Embeddingsがベンチマーククエリで最高のF1スコアを達成しました。この作業は、検索可能な画像製品であるVexcel Intelligenceへと発展しました。

ソースAWS Machine Learning Blog著者: Gilbert V Lepadatu

航空画像のライブラリを自然言語で検索可能な知識ベースに変換することは、保険、不動産、政府、インフラ、農業など、地理空間データに依存するすべての業界が直面する問題です。従来の方法では、タイルごとの手動検査か、新しい質問ごとに特注のコンピュータビジョンモデルをトレーニングする必要がありました。マルチモーダル埋め込み、大規模言語モデルによるキャプション生成、AWS上のベクター検索は、より高速な代替手段を提供します。一度インデックスを作成すれば、自然言語でクエリを実行できます。

私たちは、世界最大級の航空画像プログラムを運営する航空画像および地理空間データプロバイダーであるVexcelと協力し、マルチビュー航空画像に対する埋め込みモデル、融合戦略、キャプション統合、検索方法を評価しました。Vexcelは自社のセンサーと専用航空機群を使用して、45以上の国と地域で高解像度データを収集し、オルソモザイク画像、複数角度からの斜め画像、数値標高モデルを提供しています。データは存在し、ユースケースも多数ありますが、数十億のピクセルを現実世界に関する回答に変えるには、より高速な経路が必要です。

この記事では、問題領域、Amazon BedrockとAmazon OpenSearch Serverless上のアーキテクチャ、OpenStreetMapのグラウンドトゥルースに基づいて構築した評価手法、埋め込みモデル、融合戦略、キャプション生成、検索方法を比較した4つの実験、そして同様のシステムを構築する際に適用できる実践的なガイダンスについて説明します。地理空間セマンティック検索にとってどの設計選択が重要か、特にAmazon Nova Multimodal Embeddingsが評価で両方のベンチマーククエリに対して最高のF1スコアを達成した理由を学ぶことができます。ここで説明する作業は、検索可能な画像製品であるVexcel Intelligenceへと発展しました。

特徴ごとのトレーニングなしで数百万の航空画像を検索

顧客が郊外のプールを特定したり、開発地域の道路ネットワークを識別したり、都市全体のソーラーパネルを数えたりする必要がある場合、誰かが手動でタイルごとに数百万の画像を検査しなければなりません。別の方法は、各特徴に対してコンピュータビジョンモデルをトレーニングすることであり、これにはラベル付きデータ、エンジニアリング時間、継続的な再トレーニングが必要です。次の顧客が側面に落書きのある倉庫を見つけたい場合、彼らはそのサイクルを繰り返します。ベクター埋め込みによるセマンティック検索は、この特徴ごとのトレーニングステップを排除し、自然言語クエリを数秒で結果に変換します。

Vexcelは、以前に3つの概念実証を通じてこの問題を検討していました。画像と不動産データを組み合わせたエージェントベースのアプローチ、類似性検索のための不動産埋め込みシステム、そして大規模言語モデルによって生成されたキャプションを持つタイル化マルチモーダル埋め込みパイプラインです。3つ目は有望でしたが、どの埋め込みモデルを使用するか、場所ごとの複数のビューをどう扱うか、キャプションが結果を改善するのか、それともコストを追加するだけなのか、という重要な疑問が生じました。

AWS Generative AI Innovation Centerは、Vexcelと協力して焦点を絞った質問に答えることにしました。マルチビュー航空画像のセマンティック検索において、埋め込みモデル、融合戦略、キャプション手法、検索方法の最適な組み合わせは何か?Vexcelはドメインの専門知識と実世界データを提供し、GenAIICはMLアーキテクチャ、取り込みから評価までの完全なパイプライン、AWSサービス統合を提供しました。その結果、VexcelはVexcel Intelligenceへと発展させたシステムが生まれました。これは現在プレビュー中の製品で、画像ライブラリを検索可能でAIクエリ可能なソリューションに変換します。

地理空間画像検索が異なる理由

地理空間画像検索は、消費者写真の検索とは根本的に異なります。「プール」のクエリはGoogle画像検索で単一の視点からの独立した写真を取得します。航空画像はそのようには機能しません。1つの地図タイルは1枚の画像ではなく、同じ場所の7つの補完的な視点です。各タイルには、オルソフォト、北、南、東、西からの4つの斜め写真、構造物を含む標高をエンコードする数値表層モデル、裸地の高さを表す数値地形モデルが含まれます。これらの視点は根本的に異なる詳細を明らかにし、単一のビューでは完全なストーリーを捉えられません。

グラウンドトゥルースの課題

消費者画像検索には、ImageNet、COCO、Open Imagesなど、数十年にわたるラベル付きデータセットがあります。この規模での地物検出にはありません。ラベル付きコーパスなしで検索品質を評価する方法が必要でした。そのため、OpenStreetMapを自動グラウンドトゥルースソースとして使用することを決定しました。これは評価フレームワーク全体を形作る決断でした。3つ目の課題はあいまいさです。「プール」の検索で、プールがオルソ写真にのみ表示され、斜めビューには表示されないタイルが返された場合、それが正しい結果かどうかは不明です。逆のケースも同様にあいまいです。ズームレベルがこれをさらに複雑にします。「正しい」とは何かを定義してからでないと測定できません。

研究課題の共設計

最適化コードを1行も書く前に、評価ハーネスを構築しました。これは意図的でした。測定してから調整する。検索品質を厳密に測定する方法なしでは、すべてのアーキテクチャ決定は意見になってしまいます。この取り組みは、検索品質に影響を与える特定のアーキテクチャ決定を対象とした6つの質問を中心に構成されました。どの埋め込みモデルが航空画像を最もよく理解するか?地理的位置ごとに7枚の画像をどのように扱うか?LLM生成キャプションは検索精度を向上させるか?LLM抽出メタデータはフィルタリングを改善できるか?さまざまな特徴タイプにどの検索戦略が最適か?公開されているグラウンドトゥルースを使用して自動評価フレームワークを構築できるか?評価エリアはシカゴのグラントパークで、2つのベンチマーククエリ「プール」(離散物体検出)と「道路」(分散インフラ検出)を使用しました。約100の異なる構成をテストしました。

アーキテクチャ概要

システムは5段階のパイプラインに従い、各段階はA/B実験のために独立して交換可能です。段階1:関心領域の探索。ユーザーがインタラクティブマップ上にポリゴンを描画して関心領域を定義します。段階2:画像の取り込み。システムは、関心領域と交差するすべての地図タイルについて、VexcelのAPIからタイルを取得します。各タイルは最大7枚の画像を生成します。段階3:埋め込みとインデックス作成。各画像は選択されたAmazon Bedrock埋め込みモデルを通過します。オプションで、7つのビューがビジョンLLMに送信され、構造化テキスト記述が生成されます。埋め込みとキャプションは、Amazon OpenSearch ServerlessまたはS3 Vectorsにインデックス付けされます。段階4:検索。自然言語クエリは同じモデルを使用して埋め込まれ、インデックスと照合されます。システムはインデックスに存在するフィールドを自動検出し、サポートされている検索方法のみを動的に有効にします。段階5:評価。検索結果は、OpenStreetMapのグラウンドトゥルースに対して、適合率、再現率、F1スコアを使用してスコアリングされます。モジュラー設計により、各コンポーネントを簡単に交換でき、迅速な実験が可能です。