2026-06-30 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 16:16 UTC+8

基于联合嵌入预测架构的零标注驾驶场景复杂度检测

提出一种无需任何标注的驾驶场景复杂度检测方法，利用联合嵌入预测架构（JEPA）对结构化代理状态数据进行训练，通过时间预测误差作为复杂度评分。在nuPlan mini数据集上验证，该方法能有效区分复杂场景（如无保护转弯、人行横道交互、行人靠近）和简单场景（如车道跟随、静止交通），异常检测平均精度达0.512。

来源arXiv Computer Vision作者: Santosh Jaiswal

近年来，自动驾驶系统的发展依赖于大量标注数据来识别复杂和安全关键的驾驶场景。然而，人工标注成本高昂且难以覆盖所有边缘情况。来自arXiv的一项新研究提出了一种无需任何标注的驾驶场景复杂度检测方法，利用联合嵌入预测架构（JEPA）来自动发现复杂场景。

该方法的核心思想是：通过自监督学习训练一个最小化的JEPA模型，对结构化代理状态数据（如车辆位置、速度等）进行时间预测。模型在预测未来状态时的误差被用作场景复杂度的零样本评分。具体而言，模型在包含无保护转弯、人行横道交互和行人靠近等复杂场景中会产生更高的预测误差，而在车道跟随和静止交通等简单场景中误差较低。研究团队在nuPlan mini数据集上进行了训练和评估，并通过四项消融实验验证了信号的来源。为了进一步测试实用性，他们进行下游异常检测任务，结果显示平均精度（AP）达到0.512，超过了随机基线0.436。这表明，自监督潜在世界模型中的时间预测误差可以作为驾驶场景复杂度的实用代理指标，无需任何人工标注或预定义规则。

该论文于2026年6月21日提交至arXiv，作者为Santosh Jaiswal。该研究为大规模未标注驾驶数据集的场景挖掘提供了新的思路，有望降低自动驾驶系统对人工标注的依赖，并提升对安全关键场景的检测能力。与现有依赖人类标注或规则的方法不同，此方法完全自主地学习场景的复杂性，具有更好的可扩展性和泛化能力。