AI News HubLIVE
站内改写1 分钟阅读

深度学习在混合现实驾驶舱分割中的应用研究

该论文提出利用U-net和DeepLabV3+卷积神经网络架构,对混合现实中的驾驶舱图像进行前景与背景分割,以增强虚拟与现实图像的融合。在CAT793F矿用卡车模拟器采集的图像上实现了约90%的分割准确率。

来源arXiv Computer Vision作者: Alexandre Leles Sousa, Pedro de Oliveira Nielson, Erick Oliveira Rodrigues, Rafael Francisco dos Santos, Giovani Bernardes Vitor

计算机视觉领域持续发展,特别是随着第一人称视角技术的进步,新的应用机会不断涌现。混合现实技术通过实时叠加虚拟环境与物理世界对象,为用户创造沉浸式体验。为了实现高度逼真的虚实融合,精确的图像分割至关重要。传统的图像分割方法往往依赖于手工特征,难以适应复杂多变的驾驶场景。近年来,深度学习特别是卷积神经网络在图像分割领域取得了显著成果,为混合现实应用提供了新的解决方案。

本研究聚焦于混合现实中的驾驶舱图像分割任务,提出了一种基于深度学习的前景与背景分割方法。研究人员使用CAT793F矿用卡车模拟器,通过摄像头采集真实驾驶图像,构建了一个包含各种驾驶情境的数据集。该数据集涵盖了不同的光照条件、视角变化和背景复杂度,为模型训练提供了丰富的样本。研究团队采用了两种经典的卷积神经网络架构——U-net和DeepLabV3+,分别进行图像分割实验。U-net以其对称的编码-解码结构擅长捕捉多尺度特征,而DeepLabV3+则利用空洞卷积和空间金字塔池化,在保持高分辨率的同时扩大感受野。

实验过程中,研究人员对两种模型进行了细致的超参数调优和数据增强,以提升分割性能。评估指标包括像素准确率、交并比等。结果显示,两种模型均达到了约90%的准确率,其中DeepLabV3+在边缘细节和分割轮廓的平滑度上略胜一筹。最终,团队确定了最佳模型,并分析了其在实时推理中的计算效率。该研究表明,深度学习能够有效处理驾驶舱图像分割任务,为混合现实中的虚拟物体叠加提供了可靠的技术基础。未来,该技术可应用于驾驶员培训、远程操作、游戏娱乐等领域,通过更自然的虚实交互提升用户体验。论文由Alexandre Leles Sousa等四位作者完成,于2026年6月提交至arXiv,并曾在CBA 2024会议上发表。研究的进一步方向包括改进模型对遮挡和动态场景的鲁棒性,以及将其部署到嵌入式设备中实现实时处理。