人工智能用於海上安全:CNN與Vision Transformer架構在海上目標檢測中的比較評估
本研究利用AI和計算機視覺技術提升海上安全,通過比較六種深度學習架構(包括CNN、遷移學習模型和Vision Transformer)在6468張圖像上的表現,發現Vision Transformer在準確率、錯誤率和處理速度上均達到最優,展示了AI在海上監視、邊境保護和自主導航中的潛力。
一項新的研究論文於2026年5月28日提交至arXiv,旨在利用先進的人工智能(AI)和計算機視覺(CV)技術提升海上安全。該研究由Ismet Gocer等四位作者共同完成,論文長度24頁,屬於計算機視覺與模式識別領域(cs.CV)。研究團隊設計並評估了智能目標檢測系統,用於在不同實時環境下檢測海面上的船舶。
為了實現這一目標,研究人員構建了一個包含6,468張圖像的海上圖像數據集,涵蓋了多雲、有霧、雨天和晴天等多種天氣條件,以確保模型的泛化能力。研究評估了六種不同的深度學習架構:一個基礎的卷積神經網絡(CNN)模型、四個遷移學習模型(Xception、VGG16、MobileNetV2和EfficientNetV2L),以及一個Vision Transformer(ViT)模型。這些模型通過多個性能指標進行比較,包括準確率、第一類錯誤(假陽性)和第二類錯誤(假陰性)、模型大小以及視頻處理時間。
實驗結果表明,模型性能因計算約束和部署條件的不同而有所差異。輕量級架構如MobileNetV2適用於資源有限的設備,但Vision Transformer在所有指標上取得了最佳整體性能。ViT實現了100%的準確率,同時具有最低的錯誤率和最快的視頻處理速度。這一發現突顯了AI驅動的計算機視覺系統在海上監視、邊境保護和自主導航等應用中的巨大潛力。目前,該論文的代碼和數據尚未公開,但可通過arXiv獲取。