MapDreamer: 航空画像条件付き潜在拡散モデルによる車線レベルの地図生成
MapDreamerは、1枚の航空画像から直接、明示的なトポロジーを持つ車線レベルのベクトル地図を合成する生成拡散モデルです。変分オートエンコーダで車線中心線とトポロジー関係のコンパクトな潜在表現を学習し、トランスフォーマーベースの潜在拡散モデルでグラフを予測します。各ノイズ除去ステップでクロスアテンションを介して航空特徴を条件付け、さらに車線数の変動に対処するための車線カーディナリティモジュールとゴースト潜在変数を導入。スライディングウィンドウによる大域グラフ集約戦略で局所タイルを都市規模の地図に結合します。Argoverse 2由来のUrbanLaneGraphでの実験では、非生成ベースラインを上回る幾何学的・トポロジー的忠実度を示しました。
MapDreamerは、1枚の航空画像から車線レベルのベクトル地図を生成する新しい生成拡散モデルです。このモデルは、Julian Brandes氏らによって提案され、2026年のECCV(欧州コンピュータビジョン会議)で発表されました。自動運転には高精細地図が不可欠ですが、その大規模な作成は依然として労働集約的であり、コストも高くなっています。MapDreamerは生成的手法によりこのプロセスを簡素化し、航空画像から直接車線地図を生成することを目指しています。
モデルのアーキテクチャは主に三つの部分から構成されます。まず、変分オートエンコーダを用いて、車線中心線とそのトポロジー関係のコンパクトな潜在表現を学習します。この表現により、複雑な車線構造を低次元の潜在空間に圧縮し、後続の生成を容易にします。次に、トランスフォーマーベースの潜在拡散モデルがグラフ構造を予測し、ランダムノイズから段階的にノイズを除去して車線グラフを生成します。生成された地図を入力航空画像に合わせるため、各ノイズ除去ステップでクロスアテンションを介して密な航空特徴を注入し、モデルがシーンの具体的なレイアウトを認識できるようにします。
車線数の変動に対処するため、研究者らは二つの主要なコンポーネントを導入しました。車線カーディナリティモジュールはシーン内の車線数を予測し、背景ゴースト潜在変数は学習されたバッファとして機能し、拡散中のスロット崩壊を防ぎます。これにより、単純な道路から複雑な交差点まで様々なシーンに適応できます。
さらに、大規模地図生成の問題を解決するため、MapDreamerはスライディングウィンドウによる大域グラフ集約戦略を採用しています。この戦略は局所タイルをシームレスに都市規模の地図に結合し、エンコードされた車線境界を通じて接続性を維持します。モデルは局所的に高品質なサブグラフを生成し、それらを統合して一貫性のある全体地図を形成できるため、実用化に向けた拡張性を提供します。
実験では、Argoverse 2データセットから派生したUrbanLaneGraphを使用して評価が行われました。結果は、MapDreamerが非生成ベースラインと比較して幾何学的およびトポロジー的忠実度の両方で優れていることを示しました。具体的には、車線中心線の位置特定、トポロジカル接続の正確性、地図の完全性などの指標で顕著な改善が見られました。この研究は、自動運転における高精細地図生成の効率的でスケーラブルな新しいアプローチを提供し、関連技術の実用化を促進することが期待されます。