2026-06-16站内改写1 分鐘閱讀更新: 2026-06-16

人工智慧用於海上安全：CNN與Vision Transformer架構在海上目標檢測中的比較評估

本研究利用AI和計算機視覺技術提升海上安全，透過比較六種深度學習架構（包括CNN、遷移學習模型和Vision Transformer）在6468張影像上的表現，發現Vision Transformer在準確率、錯誤率和處理速度上均達到最優，展示了AI在海上監視、邊境保護和自主導航中的潛力。

來源arXiv Computer Vision作者: Ismet Gocer, Zakirul Bhuiayn, Shakeel Ahmad, Raza Hasan

一項新的研究論文於2026年5月28日提交至arXiv，旨在利用先進的人工智慧（AI）和計算機視覺（CV）技術提升海上安全。該研究由Ismet Gocer等四位作者共同完成，論文長度24頁，屬於計算機視覺與模式識別領域（cs.CV）。研究團隊設計並評估了智慧目標檢測系統，用於在不同即時環境下檢測海面上的船舶。

為了實現這一目標，研究人員構建了一個包含6,468張影像的海上影像資料集，涵蓋了多雲、有霧、雨天和晴天等多種天氣條件，以確保模型的泛化能力。研究評估了六種不同的深度學習架構：一個基礎的卷積神經網路（CNN）模型、四個遷移學習模型（Xception、VGG16、MobileNetV2和EfficientNetV2L），以及一個Vision Transformer（ViT）模型。這些模型透過多個效能指標進行比較，包括準確率、第一類錯誤（假陽性）和第二類錯誤（假陰性）、模型大小以及影片處理時間。

實驗結果表明，模型效能因計算約束和部署條件的不同而有所差異。輕量級架構如MobileNetV2適用於資源有限的裝置，但Vision Transformer在所有指標上取得了最佳整體效能。ViT實現了100%的準確率，同時具有最低的錯誤率和最快的影片處理速度。這一發現突顯了AI驅動的計算機視覺系統在海上監視、邊境保護和自主導航等應用中的巨大潛力。目前，該論文的程式碼和資料尚未公開，但可透過arXiv獲取。