2026-06-17站内改写1 分で読了更新: 2026-06-17

ParkingTransformer：LLM強化によるエンドツーエンド自動駐車軌道計画

本論文では、マルチビュー知覚と大規模言語モデル（LLM）のシーン理解能力を活用したエンドツーエンド自動駐車フレームワーク「ParkingTransformer」を提案する。軌道クエリとLLMの暗黙状態特徴を組み合わせ、密なBEV表現を排除して計画軌道を直接出力。3D位置符号化、固定ウィンドウストリーミング機構、粗密デコード戦略を導入。CARLAシミュレータでは運転スコア61.32、実世界実験では平均成功率88.70%を達成。

ソースarXiv Robotics著者: Hauteng Wu, Xu Li, Dong Kong, Zihang Wang, Xieyuanli Chen, Benwu Wang, Wenkai Zhu

記事インテリジェンス

エンジニア上級

要点

ParkingTransformerはLLMを活用してエンドツーエンドの駐車軌道計画を強化し、ブラックボックス問題に対処し解釈可能性を向上。
3D位置符号化でLLMの空間推論不足を補い、固定ウィンドウストリーミングで長期的時間処理効率を向上。
CARLAシミュレータで運転スコア61.32、実世界実験で平均成功率88.70%を達成。

重要な理由

このニュースが重要なのは、ParkingTransformerはLLMを活用してエンドツーエンドの駐車軌道計画を強化し、ブラックボックス問題に対処し解釈可能性を向上ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

自動運転において、エンドツーエンドの自動駐車は重要なタスクとして浮上している。しかし、既存の手法はブラックボックス的な特性を持ち、高レベルの意味理解や解釈可能性に欠けており、道路から目標地点までのシームレスな長距離自動駐車の実現を妨げている。この問題に対処するため、研究チームはマルチビュー知覚と大規模言語モデル（LLM）のシーン理解能力を活用した新しいフレームワーク「ParkingTransformer」を提案した。

従来の密な鳥瞰図（BEV）表現に依存する手法とは異なり、ParkingTransformerは軌道クエリとLLMの暗黙状態特徴を組み合わせ、履歴情報や生のセンサーデータと直接対話しながら計画軌道を出力する。この設計により、認識パイプラインが簡素化されるとともに、モデルの意味理解と解釈可能性が大幅に向上する。

LLMの空間推論能力の不足を補うため、研究者は3D位置符号化を導入し、空間幾何学的認識を明示的に注入した。さらに、固定ウィンドウストリーミング機構を設計し、履歴情報の処理を効率化することで、長期的な時間処理効率と推論速度を大幅に改善した。また、粗密デコード戦略を採用し、軌道精度を段階的に高めている。

実験面では、CARLAシミュレータでの大規模なクローズドループ実験により、運転スコア61.32を達成。実世界の車両プラットフォームでの実験では、平均成功率88.70%を記録し、提案アルゴリズムの実現可能性と有効性が検証された。これらの成果は、エンドツーエンド自動駐車の発展に新たな方向性を示すものであり、今後のLLMと自動運転システムの統合に向けた基盤を提供する。