2024-03-09 00:55 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Car-GPT：LLM能否最終實現自動駕駛？

探索大型語言模型在自動駕駛中的效用：它們能否被信任用於無人駕駛汽車，關鍵挑戰是什麼？

來源The Gradient作者: Jérémy Cohen

1928年，倫敦陷入嚴重的健康危機，細菌性疾病肆虐。亞歷山大·弗萊明意外發現青黴素，徹底改變了醫學。類似地，自動駕駛行業可能正在經歷一場由大型語言模型（LLM）引發的革命。

早期的自動駕駛採用模塊化方法，將感知、定位、規劃和控制分開。但過去十年，端到端學習興起，用單一神經網絡直接預測駕駛命令，卻引入了黑盒問題。如今，LLM的出現可能成為意外答案。

LLM的核心包括三個步驟：標記化（將文本轉為數字）、Transformer架構（處理序列）和下一詞預測（生成輸出）。這些技術可以適配自動駕駛：輸入圖像或傳感器數據（標記化），通過Transformer處理，輸出駕駛指令或場景描述。

在感知方面，模型如PromptTrack結合DETR和LLM，能檢測物體並分配ID；規劃方面，Talk2BEV利用語言增強鳥瞰圖，生成軌跡；生成方面，Wayve的GAIA-1能根據文本和圖像生成視頻，用於訓練數據擴展。

然而，信任問題是關鍵。LLM可能產生幻覺，且其決策過程不透明。目前，這些模型多用於離線或研究，尚未在真實道路上測試。正如文中所説：“現在下結論還為時過早。”

此外，自動駕駛領域的LLM研究正迅速擴展。2023年湧現了大量相關論文，涵蓋感知、規劃、生成等多個方面。儘管前景誘人，但安全問題不容忽視。例如，模型可能在複雜場景下做出錯誤判斷，導致危險。因此，研究人員正在探索如何提高LLM的可靠性和可解釋性。

未來，LLM或許能成為自動駕駛的“大腦”，但在此之前，需要解決諸多技術挑戰，包括數據效率、實時性、以及安全驗證。正如作者所言，這是一個值得期待的領域，但需要時間和謹慎的推進。