2024-03-09 00:55 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

Car-GPT：LLM能否最终实现自动驾驶？

探索大型语言模型在自动驾驶中的效用：它们能否被信任用于无人驾驶汽车，关键挑战是什么？

来源The Gradient作者: Jérémy Cohen

1928年，伦敦陷入严重的健康危机，细菌性疾病肆虐。亚历山大·弗莱明意外发现青霉素，彻底改变了医学。类似地，自动驾驶行业可能正在经历一场由大型语言模型（LLM）引发的革命。

早期的自动驾驶采用模块化方法，将感知、定位、规划和控制分开。但过去十年，端到端学习兴起，用单一神经网络直接预测驾驶命令，却引入了黑盒问题。如今，LLM的出现可能成为意外答案。

LLM的核心包括三个步骤：标记化（将文本转为数字）、Transformer架构（处理序列）和下一词预测（生成输出）。这些技术可以适配自动驾驶：输入图像或传感器数据（标记化），通过Transformer处理，输出驾驶指令或场景描述。

在感知方面，模型如PromptTrack结合DETR和LLM，能检测物体并分配ID；规划方面，Talk2BEV利用语言增强鸟瞰图，生成轨迹；生成方面，Wayve的GAIA-1能根据文本和图像生成视频，用于训练数据扩展。

然而，信任问题是关键。LLM可能产生幻觉，且其决策过程不透明。目前，这些模型多用于离线或研究，尚未在真实道路上测试。正如文中所说：“现在下结论还为时过早。”

此外，自动驾驶领域的LLM研究正迅速扩展。2023年涌现了大量相关论文，涵盖感知、规划、生成等多个方面。尽管前景诱人，但安全问题不容忽视。例如，模型可能在复杂场景下做出错误判断，导致危险。因此，研究人员正在探索如何提高LLM的可靠性和可解释性。

未来，LLM或许能成为自动驾驶的“大脑”，但在此之前，需要解决诸多技术挑战，包括数据效率、实时性、以及安全验证。正如作者所言，这是一个值得期待的领域，但需要时间和谨慎的推进。