AI News HubLIVE
サイト内リライト2 分で読了

Car-GPT:LLMはついに自動運転を実現するのか?

大規模言語モデルの自動運転への応用を探る:信頼できるのか、主な課題は何か?

ソースThe Gradient著者: Jérémy Cohen

1928年、ロンドンは深刻な健康危機に見舞われ、細菌性疾患が蔓延していた。アレクサンダー・フレミングが偶然ペニシリンを発見し、医学を一変させた。これと同様に、自動運転業界は大規模言語モデル(LLM)による革命の瀬戸際にある。

初期の自動運転はモジュール方式(認識、位置推定、計画、制御)を採用していたが、過去10年でエンドツーエンド学習が台頭し、単一のニューラルネットワークが直接運転コマンドを予測するようになった。しかし、これはブラックボックス問題を引き起こした。今、LLMが予期せぬ答えを提供するかもしれない。

LLMの核心は3つのステップ:トークン化(テキストを数値に変換)、トランスフォーマー(系列処理)、次語予測(出力生成)である。これらを自動運転に適応させる:入力は画像やセンサーデータ(トークン化)、トランスフォーマーで処理し、運転指示やシーン記述を出力する。

認識では、PromptTrackのようなモデルがDETRとLLMを組み合わせ物体検出とID割り当てを行う。計画では、Talk2BEVが言語で鳥瞰図を強化し軌道生成する。生成では、WayveのGAIA-1がテキストと画像からビデオを生成し、訓練データ拡張に使える。

しかし信頼性が課題である。LLMは幻覚を起こす可能性があり、意思決定プロセスが不透明だ。現在、これらのモデルは主にオフラインや研究用途に限られ、実道路でのテストは行われていない。記事の結論通り、「時期尚早」である。

さらに、自動運転におけるLLMの研究は急速に拡大している。2023年には多くの関連論文が登場し、認識、計画、生成など多岐にわたる。展望は魅力的だが、安全性の問題は無視できない。例えば、複雑なシナリオで誤った判断を下し危険を招く可能性がある。そのため、研究者はLLMの信頼性と説明可能性の向上に取り組んでいる。

将来的には、LLMが自動運転の「頭脳」となるかもしれないが、それまでにはデータ効率、リアルタイム性、安全検証など多くの技術的課題をクリアする必要がある。著者が言うように、これは期待される分野だが、時間と慎重な進展が求められる。