2026-05-26 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

通過多模態腦電圖對齊實現腦到圖像的檢索與重建

研究人員提出了一種腦到圖像系統，利用自然觀看圖像時的腦電圖（EEG）信號解碼視覺刺激。系統包括兩個任務：EEG到圖像的檢索（在200個候選中識別正確圖像，Top-1準確率86.30%，Top-5準確率98.55%）和EEG到圖像的重建（生成與感知刺激一致的圖像，CLIP評分達0.903）。該方法結合多級模糊、EVNet特徵、InfoNCE損失以及基於CLIP的多模態對齊和SDXL-Turbo生成模型，展示了從EEG信號解碼豐富視覺表徵的可行性。

來源arXiv Computer Vision作者: Chi Kit Wong, Yan Liu, Haowen Yan

一項新的研究成功開發出一種從腦電圖（EEG）信號中解碼視覺刺激的系統，能夠實現腦到圖像的檢索與重建。該系統由Chi Kit Wong及其同事提出，相關論文以《Brain-to-Image Retrieval and Reconstruction via Multimodal EEG Alignment》為題提交至arXiv，並於2026年5月18日發佈。

該系統包含兩個主要任務：EEG到圖像的檢索以及EEG到圖像的重建。在檢索任務中，給定一段EEG信號片段，模型需要從200個候選圖像中正確識別出受試者當時觀看的刺激圖像。研究人員採用多級模糊方法，結合受生物學啓發的EVNet特徵，並使用InfoNCE損失函數進行訓練。經過10個隨機種子的評估，檢索模型在單個受試者上的平均最終輪次Top-1準確率達到86.30%，Top-5準確率高達98.55%。這意味着在絕大多數情況下，系統能夠從200張圖片中準確找出受試者正在觀看的圖像，表現出極高的可靠性。

在重建任務中，研究團隊提出名為“CognitionCapturerPro”的方法。該方法將EEG表徵與多模態CLIP嵌入對齊，這些嵌入包括圖像、文本、深度和邊緣信息，進而利用IP-Adapter調節的SDXL-Turbo模型合成圖像。實驗結果顯示，重建模型在10個種子上的平均CLIP評分達到0.903（使用ViT-H-14模型）和0.870（使用ViT-L/14模型），結構相似性指數（SSIM）為0.409。這些指標證明該模型能夠生成與原始視覺刺激高度一致的圖像，儘管距離完美重建仍有差距，但已顯著超越以往嘗試。

這項研究的突破性意義在於，它表明結合現代多模態對齊技術和生成式建模，有可能從非侵入性EEG信號中解碼出豐富的視覺表徵。該工作為腦機接口、神經科學和計算機視覺的交叉領域提供了新的可能性，未來或可將思維直接轉化為可視化的圖像。論文附有代碼，已公開發布，為後續研究提供了堅實基礎。