AI News HubLIVE
站内改写1 分鐘閱讀

深度學習在混合現實駕駛艙分割中的應用研究

該論文提出利用U-net和DeepLabV3+卷積神經網路架構,對混合現實中的駕駛艙影像進行前景與背景分割,以增強虛擬與現實影像的融合。在CAT793F礦用卡車模擬器採集的影像上實現了約90%的分割準確率。

來源arXiv Computer Vision作者: Alexandre Leles Sousa, Pedro de Oliveira Nielson, Erick Oliveira Rodrigues, Rafael Francisco dos Santos, Giovani Bernardes Vitor

計算機視覺領域持續發展,特別是隨著第一人稱視角技術的進步,新的應用機會不斷湧現。混合現實技術透過即時疊加虛擬環境與物理世界物件,為使用者創造沉浸式體驗。為了實現高度逼真的虛實融合,精確的影像分割至關重要。傳統的影像分割方法往往依賴於手工特徵,難以適應複雜多變的駕駛場景。近年來,深度學習特別是卷積神經網路在影像分割領域取得了顯著成果,為混合現實應用提供了新的解決方案。

本研究聚焦於混合現實中的駕駛艙影像分割任務,提出了一種基於深度學習的前景與背景分割方法。研究人員使用CAT793F礦用卡車模擬器,透過攝像頭採集真實駕駛影像,構建了一個包含各種駕駛情境的資料集。該資料集涵蓋了不同的光照條件、視角變化和背景複雜度,為模型訓練提供了豐富的樣本。研究團隊採用了兩種經典的卷積神經網路架構——U-net和DeepLabV3+,分別進行影像分割實驗。U-net以其對稱的編碼-解碼結構擅長捕捉多尺度特徵,而DeepLabV3+則利用空洞卷積和空間金字塔池化,在保持高解析度的同時擴大感受野。

實驗過程中,研究人員對兩種模型進行了細緻的超引數調優和資料增強,以提升分割效能。評估指標包括畫素準確率、交併比等。結果顯示,兩種模型均達到了約90%的準確率,其中DeepLabV3+在邊緣細節和分割輪廓的平滑度上略勝一籌。最終,團隊確定了最佳模型,並分析了其在即時推理中的計算效率。該研究表明,深度學習能夠有效處理駕駛艙影像分割任務,為混合現實中的虛擬物體疊加提供了可靠的技術基礎。未來,該技術可應用於駕駛員培訓、遠端操作、遊戲娛樂等領域,透過更自然的虛實互動提升使用者體驗。論文由Alexandre Leles Sousa等四位作者完成,於2026年6月提交至arXiv,並曾在CBA 2024會議上發表。研究的進一步方向包括改進模型對遮擋和動態場景的魯棒性,以及將其部署到嵌入式裝置中實現即時處理。