2026-06-30 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 16:16 UTC+8

基於聯合嵌入預測架構的零標註駕駛場景複雜度檢測

提出一種無需任何標註的駕駛場景複雜度檢測方法，利用聯合嵌入預測架構（JEPA）對結構化代理狀態數據進行訓練，通過時間預測誤差作為複雜度評分。在nuPlan mini數據集上驗證，該方法能有效區分複雜場景（如無保護轉彎、人行橫道交互、行人靠近）和簡單場景（如車道跟隨、靜止交通），異常檢測平均精度達0.512。

來源arXiv Computer Vision作者: Santosh Jaiswal

近年來，自動駕駛系統的發展依賴於大量標註數據來識別複雜和安全關鍵的駕駛場景。然而，人工標註成本高昂且難以覆蓋所有邊緣情況。來自arXiv的一項新研究提出了一種無需任何標註的駕駛場景複雜度檢測方法，利用聯合嵌入預測架構（JEPA）來自動發現複雜場景。

該方法的核心思想是：通過自監督學習訓練一個最小化的JEPA模型，對結構化代理狀態數據（如車輛位置、速度等）進行時間預測。模型在預測未來狀態時的誤差被用作場景複雜度的零樣本評分。具體而言，模型在包含無保護轉彎、人行橫道交互和行人靠近等複雜場景中會產生更高的預測誤差，而在車道跟隨和靜止交通等簡單場景中誤差較低。研究團隊在nuPlan mini數據集上進行了訓練和評估，並通過四項消融實驗驗證了信號的來源。為了進一步測試實用性，他們進行下游異常檢測任務，結果顯示平均精度（AP）達到0.512，超過了隨機基線0.436。這表明，自監督潛在世界模型中的時間預測誤差可以作為駕駛場景複雜度的實用代理指標，無需任何人工標註或預定義規則。

該論文於2026年6月21日提交至arXiv，作者為Santosh Jaiswal。該研究為大規模未標註駕駛數據集的場景挖掘提供了新的思路，有望降低自動駕駛系統對人工標註的依賴，並提升對安全關鍵場景的檢測能力。與現有依賴人類標註或規則的方法不同，此方法完全自主地學習場景的複雜性，具有更好的可擴展性和泛化能力。