人工智能用于海上安全:CNN与Vision Transformer架构在海上目标检测中的比较评估
本研究利用AI和计算机视觉技术提升海上安全,通过比较六种深度学习架构(包括CNN、迁移学习模型和Vision Transformer)在6468张图像上的表现,发现Vision Transformer在准确率、错误率和处理速度上均达到最优,展示了AI在海上监视、边境保护和自主导航中的潜力。
一项新的研究论文于2026年5月28日提交至arXiv,旨在利用先进的人工智能(AI)和计算机视觉(CV)技术提升海上安全。该研究由Ismet Gocer等四位作者共同完成,论文长度24页,属于计算机视觉与模式识别领域(cs.CV)。研究团队设计并评估了智能目标检测系统,用于在不同实时环境下检测海面上的船舶。
为了实现这一目标,研究人员构建了一个包含6,468张图像的海上图像数据集,涵盖了多云、有雾、雨天和晴天等多种天气条件,以确保模型的泛化能力。研究评估了六种不同的深度学习架构:一个基础的卷积神经网络(CNN)模型、四个迁移学习模型(Xception、VGG16、MobileNetV2和EfficientNetV2L),以及一个Vision Transformer(ViT)模型。这些模型通过多个性能指标进行比较,包括准确率、第一类错误(假阳性)和第二类错误(假阴性)、模型大小以及视频处理时间。
实验结果表明,模型性能因计算约束和部署条件的不同而有所差异。轻量级架构如MobileNetV2适用于资源有限的设备,但Vision Transformer在所有指标上取得了最佳整体性能。ViT实现了100%的准确率,同时具有最低的错误率和最快的视频处理速度。这一发现突显了AI驱动的计算机视觉系统在海上监视、边境保护和自主导航等应用中的巨大潜力。目前,该论文的代码和数据尚未公开,但可通过arXiv获取。