ParkingTransformer:LLM強化によるエンドツーエンド自動駐車軌道計画
本論文では、マルチビュー知覚と大規模言語モデル(LLM)のシーン理解能力を活用したエンドツーエンド自動駐車フレームワーク「ParkingTransformer」を提案する。軌道クエリとLLMの暗黙状態特徴を組み合わせ、密なBEV表現を排除して計画軌道を直接出力。3D位置符号化、固定ウィンドウストリーミング機構、粗密デコード戦略を導入。CARLAシミュレータでは運転スコア61.32、実世界実験では平均成功率88.70%を達成。
自動運転において、エンドツーエンドの自動駐車は重要なタスクとして浮上している。しかし、既存の手法はブラックボックス的な特性を持ち、高レベルの意味理解や解釈可能性に欠けており、道路から目標地点までのシームレスな長距離自動駐車の実現を妨げている。この問題に対処するため、研究チームはマルチビュー知覚と大規模言語モデル(LLM)のシーン理解能力を活用した新しいフレームワーク「ParkingTransformer」を提案した。
従来の密な鳥瞰図(BEV)表現に依存する手法とは異なり、ParkingTransformerは軌道クエリとLLMの暗黙状態特徴を組み合わせ、履歴情報や生のセンサーデータと直接対話しながら計画軌道を出力する。この設計により、認識パイプラインが簡素化されるとともに、モデルの意味理解と解釈可能性が大幅に向上する。
LLMの空間推論能力の不足を補うため、研究者は3D位置符号化を導入し、空間幾何学的認識を明示的に注入した。さらに、固定ウィンドウストリーミング機構を設計し、履歴情報の処理を効率化することで、長期的な時間処理効率と推論速度を大幅に改善した。また、粗密デコード戦略を採用し、軌道精度を段階的に高めている。
実験面では、CARLAシミュレータでの大規模なクローズドループ実験により、運転スコア61.32を達成。実世界の車両プラットフォームでの実験では、平均成功率88.70%を記録し、提案アルゴリズムの実現可能性と有効性が検証された。これらの成果は、エンドツーエンド自動駐車の発展に新たな方向性を示すものであり、今後のLLMと自動運転システムの統合に向けた基盤を提供する。