2026-06-23 00:32 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-23 00:59 UTC+8

嵌入世界：大規模可搜尋航拍影像的多模態AI

本文探討了如何利用多模態嵌入、大語言模型標註和向量搜尋，將航拍影像庫轉化為可自然語言搜尋的知識庫。透過使用Amazon Bedrock和Amazon OpenSearch Serverless構建的五階段管道，評估了不同嵌入模型、融合策略、標註方法和搜尋技術。實驗表明，Amazon Nova Multimodal Embeddings在基準查詢中獲得了最高的F1分數。該工作已發展為Vexcel Intelligence產品。

來源AWS Machine Learning Blog作者: Gilbert V Lepadatu

將航拍影像庫轉化為可自然語言搜尋的知識庫，是保險、房地產、政府、基礎設施和農業等依賴地理空間資料的行業共同面臨的問題。傳統方法需要逐塊手動檢查或為每個新問題訓練定製計算機視覺模型。多模態嵌入、大語言模型標註和AWS上的向量搜尋提供了一種更快的替代方案：一次索引，然後使用自然語言進行查詢。

我們與全球最大航拍影像專案之一的Vexcel合作，評估了多種嵌入模型、融合策略、標註整合和搜尋方法。Vexcel使用自有感測器和專用飛機機隊，在45多個國家和地區收集高解析度資料，提供正射影像、多角度傾斜影像和數字高程模型。資料存在且用例眾多，但將數十億畫素轉化為關於真實世界的答案需要更快的途徑。

本文詳細介紹了問題空間、基於Amazon Bedrock和Amazon OpenSearch Serverless的架構、基於OpenStreetMap地面真值的評估方法，以及四項比較實驗，包括嵌入模型比較、融合策略、標註方法和搜尋技術。您將瞭解哪些設計選擇對地理空間語義搜尋至關重要，包括為什麼Amazon Nova Multimodal Embeddings在評估中為兩個基準查詢提供了最高的F1分數。這裡描述的工作已發展為Vexcel Intelligence，一個可搜尋影像產品。

無需為每個特徵訓練即可搜尋數百萬張航拍影像

當客戶需要定位郊區的游泳池、識別開發區的道路網路或統計整個城市的太陽能電池板時，必須有人手動逐塊檢查數百萬張影像。另一種方法是為每個特徵訓練計算機視覺模型，這需要標註資料、工程時間和持續重新訓練。當下一個客戶想要查詢側面有塗鴉的倉庫時，他們重複這一迴圈。基於向量嵌入的語義搜尋消除了這一逐個特徵訓練步驟，將自然語言查詢轉化為幾秒鐘內得到的結果。

Vexcel曾透過三個先導概念驗證探索此問題：結合影像和財產資料的基於代理的方法，用於相似性搜尋的財產嵌入系統，以及帶大語言模型標註的瓦片多模態嵌入管道。第三個顯示出潛力，但提出了關鍵問題：使用哪種嵌入模型，如何處理每個位置的多個視角，以及標註是否實際改善結果或僅增加成本。

AWS生成式AI創新中心與Vexcel合作回答一個焦點問題：對於多視角航拍影像的語義搜尋，嵌入模型、融合策略、標註方法和搜尋技術的最優組合是什麼？Vexcel提供了領域專業知識和真實世界資料，GenAIIC貢獻了機器學習架構、完整的攝取到評估管道以及AWS服務整合。結果是Vexcel已發展為Vexcel Intelligence的系統，這是一個現處於預覽階段的產品，將其影像庫轉變為可搜尋、可AI查詢的解決方案。

為什麼地理空間影像搜尋不同

地理空間影像搜尋與搜尋消費者照片根本不同。對“游泳池”的查詢在谷歌圖片上檢索來自單一視角的獨立照片。航拍影像並非如此。單個地圖瓦片不是一張影像，而是同一位置的七種互補視角。每個瓦片包括一個正射影像、四個從北、南、東、西方向捕捉的傾斜照片、一個編碼包括結構物在內的數字表面模型，以及表示裸地高度的數字地形模型。這些視角揭示截然不同的細節，沒有單一檢視能提供完整故事。

地面真值挑戰

消費者影像搜尋有數十年的標註資料集，如ImageNet、COCO和Open Images。此規模的地標特徵檢測沒有。我們需要一種無需預標註語料庫即可評估搜尋質量的方法，這使我們選擇將OpenStreetMap作為自動地面真值來源，這一決策塑造了整個評估框架。第三個挑戰是模糊性。考慮一個搜尋“游泳池”返回一個瓦片，其中游泳池僅出現在正射影像中，而沒有任何傾斜檢視可見。尚不清楚該結果是否正確。反轉情況同樣模糊：一個瓦片中游泳池從南傾斜方向可見，但從上方看不到。縮放級別加劇了這一點。我們必須定義“正確”的含義才能衡量。

共同設計研究議程

在編寫任何最佳化程式碼之前，我們構建了評估框架。這是故意的：先測量再調整。沒有嚴格的方法來衡量搜尋質量，每個架構決策都變成意見。該工作結構圍繞六個問題，每個針對影響搜尋質量的特定架構決策：哪種嵌入模型最好理解航拍影像？如何處理每個地理位置的七張影像？大語言模型生成的標註是否提高搜尋精度？大語言模型提取的後設資料能否改善過濾？對於不同特徵型別，哪種搜尋策略最佳？能否使用公開可用的地面真值構建自動化評估框架？評估區域是芝加哥的格蘭特公園，使用兩個基準查詢：“游泳池”（離散物件檢測）和“道路”（分散式基礎設施檢測）。我們測試了約100種配置。

架構概覽

系統採用五階段管道，每個階段可獨立交換用於A/B實驗。階段1：探索感興趣區域。使用者在互動式地圖上繪製多邊形定義感興趣區域。階段2：攝取影像。系統從Vexcel的API獲取與感興趣區域相交的每個地圖瓦片的瓦片。每個瓦片最多可生成七種影像。階段3：嵌入與索引。每個影像透過選定的Amazon Bedrock嵌入模型。可選地，七種檢視傳送到視覺大語言模型以生成結構化文本描述。然後將嵌入和標註索引到Amazon OpenSearch Serverless或S3 Vectors中。階段4：搜尋。自然語言查詢使用相同模型嵌入，然後與索引匹配。系統自動檢測索引中存在哪些欄位，並動態啟用僅索引支援的方法。階段5：評估。搜尋結果根據OpenStreetMap地面真值使用精確率、召回率和F1分數進行評分。模組化設計使可以輕鬆更換每個元件，實現快速實驗。