2026-06-08 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

深度學習在混合現實駕駛艙分割中的應用研究

該論文提出利用U-net和DeepLabV3+卷積神經網路架構，對混合現實中的駕駛艙影像進行前景與背景分割，以增強虛擬與現實影像的融合。在CAT793F礦用卡車模擬器採集的影像上實現了約90%的分割準確率。

來源arXiv Computer Vision作者: Alexandre Leles Sousa, Pedro de Oliveira Nielson, Erick Oliveira Rodrigues, Rafael Francisco dos Santos, Giovani Bernardes Vitor

計算機視覺領域持續發展，特別是隨著第一人稱視角技術的進步，新的應用機會不斷湧現。混合現實技術透過即時疊加虛擬環境與物理世界物件，為使用者創造沉浸式體驗。為了實現高度逼真的虛實融合，精確的影像分割至關重要。傳統的影像分割方法往往依賴於手工特徵，難以適應複雜多變的駕駛場景。近年來，深度學習特別是卷積神經網路在影像分割領域取得了顯著成果，為混合現實應用提供了新的解決方案。

本研究聚焦於混合現實中的駕駛艙影像分割任務，提出了一種基於深度學習的前景與背景分割方法。研究人員使用CAT793F礦用卡車模擬器，透過攝像頭採集真實駕駛影像，構建了一個包含各種駕駛情境的資料集。該資料集涵蓋了不同的光照條件、視角變化和背景複雜度，為模型訓練提供了豐富的樣本。研究團隊採用了兩種經典的卷積神經網路架構——U-net和DeepLabV3+，分別進行影像分割實驗。U-net以其對稱的編碼-解碼結構擅長捕捉多尺度特徵，而DeepLabV3+則利用空洞卷積和空間金字塔池化，在保持高解析度的同時擴大感受野。

實驗過程中，研究人員對兩種模型進行了細緻的超引數調優和資料增強，以提升分割效能。評估指標包括畫素準確率、交併比等。結果顯示，兩種模型均達到了約90%的準確率，其中DeepLabV3+在邊緣細節和分割輪廓的平滑度上略勝一籌。最終，團隊確定了最佳模型，並分析了其在即時推理中的計算效率。該研究表明，深度學習能夠有效處理駕駛艙影像分割任務，為混合現實中的虛擬物體疊加提供了可靠的技術基礎。未來，該技術可應用於駕駛員培訓、遠端操作、遊戲娛樂等領域，透過更自然的虛實互動提升使用者體驗。論文由Alexandre Leles Sousa等四位作者完成，於2026年6月提交至arXiv，並曾在CBA 2024會議上發表。研究的進一步方向包括改進模型對遮擋和動態場景的魯棒性，以及將其部署到嵌入式裝置中實現即時處理。