Car-GPT:LLM能否最终实现自动驾驶?
探索大型语言模型在自动驾驶中的效用:它们能否被信任用于无人驾驶汽车,关键挑战是什么?
1928年,伦敦陷入严重的健康危机,细菌性疾病肆虐。亚历山大·弗莱明意外发现青霉素,彻底改变了医学。类似地,自动驾驶行业可能正在经历一场由大型语言模型(LLM)引发的革命。
早期的自动驾驶采用模块化方法,将感知、定位、规划和控制分开。但过去十年,端到端学习兴起,用单一神经网络直接预测驾驶命令,却引入了黑盒问题。如今,LLM的出现可能成为意外答案。
LLM的核心包括三个步骤:标记化(将文本转为数字)、Transformer架构(处理序列)和下一词预测(生成输出)。这些技术可以适配自动驾驶:输入图像或传感器数据(标记化),通过Transformer处理,输出驾驶指令或场景描述。
在感知方面,模型如PromptTrack结合DETR和LLM,能检测物体并分配ID;规划方面,Talk2BEV利用语言增强鸟瞰图,生成轨迹;生成方面,Wayve的GAIA-1能根据文本和图像生成视频,用于训练数据扩展。
然而,信任问题是关键。LLM可能产生幻觉,且其决策过程不透明。目前,这些模型多用于离线或研究,尚未在真实道路上测试。正如文中所说:“现在下结论还为时过早。”
此外,自动驾驶领域的LLM研究正迅速扩展。2023年涌现了大量相关论文,涵盖感知、规划、生成等多个方面。尽管前景诱人,但安全问题不容忽视。例如,模型可能在复杂场景下做出错误判断,导致危险。因此,研究人员正在探索如何提高LLM的可靠性和可解释性。
未来,LLM或许能成为自动驾驶的“大脑”,但在此之前,需要解决诸多技术挑战,包括数据效率、实时性、以及安全验证。正如作者所言,这是一个值得期待的领域,但需要时间和谨慎的推进。