2026-06-16站内改写1 分钟阅读更新: 2026-06-16

人工智能用于海上安全：CNN与Vision Transformer架构在海上目标检测中的比较评估

本研究利用AI和计算机视觉技术提升海上安全，通过比较六种深度学习架构（包括CNN、迁移学习模型和Vision Transformer）在6468张图像上的表现，发现Vision Transformer在准确率、错误率和处理速度上均达到最优，展示了AI在海上监视、边境保护和自主导航中的潜力。

来源arXiv Computer Vision作者: Ismet Gocer, Zakirul Bhuiayn, Shakeel Ahmad, Raza Hasan

一项新的研究论文于2026年5月28日提交至arXiv，旨在利用先进的人工智能（AI）和计算机视觉（CV）技术提升海上安全。该研究由Ismet Gocer等四位作者共同完成，论文长度24页，属于计算机视觉与模式识别领域（cs.CV）。研究团队设计并评估了智能目标检测系统，用于在不同实时环境下检测海面上的船舶。

为了实现这一目标，研究人员构建了一个包含6,468张图像的海上图像数据集，涵盖了多云、有雾、雨天和晴天等多种天气条件，以确保模型的泛化能力。研究评估了六种不同的深度学习架构：一个基础的卷积神经网络（CNN）模型、四个迁移学习模型（Xception、VGG16、MobileNetV2和EfficientNetV2L），以及一个Vision Transformer（ViT）模型。这些模型通过多个性能指标进行比较，包括准确率、第一类错误（假阳性）和第二类错误（假阴性）、模型大小以及视频处理时间。

实验结果表明，模型性能因计算约束和部署条件的不同而有所差异。轻量级架构如MobileNetV2适用于资源有限的设备，但Vision Transformer在所有指标上取得了最佳整体性能。ViT实现了100%的准确率，同时具有最低的错误率和最快的视频处理速度。这一发现突显了AI驱动的计算机视觉系统在海上监视、边境保护和自主导航等应用中的巨大潜力。目前，该论文的代码和数据尚未公开，但可通过arXiv获取。