AI News HubLIVE
站内改写

通過多模態腦電圖對齊實現腦到圖像的檢索與重建

研究人員提出了一種腦到圖像系統,利用自然觀看圖像時的腦電圖(EEG)信號解碼視覺刺激。系統包括兩個任務:EEG到圖像的檢索(在200個候選中識別正確圖像,Top-1準確率86.30%,Top-5準確率98.55%)和EEG到圖像的重建(生成與感知刺激一致的圖像,CLIP評分達0.903)。該方法結合多級模糊、EVNet特徵、InfoNCE損失以及基於CLIP的多模態對齊和SDXL-Turbo生成模型,展示了從EEG信號解碼豐富視覺表徵的可行性。

文章情報

工程師進階

要點

  • EEG到圖像檢索:在200個候選圖像中,Top-1準確率86.30%,Top-5準確率98.55%。
  • EEG到圖像重建:CognitionCapturerPro方法,利用多模態CLIP嵌入和SDXL-Turbo,CLIP評分0.903。
  • 研究證明現代多模態對齊與生成建模能夠有效解碼EEG中的視覺信息。

為甚麼重要

這條新聞值得關注,因為EEG到圖像檢索:在200個候選圖像中,Top-1準確率86.30%,Top-5準確率98.55%。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

一項新的研究成功開發出一種從腦電圖(EEG)信號中解碼視覺刺激的系統,能夠實現腦到圖像的檢索與重建。該系統由Chi Kit Wong及其同事提出,相關論文以《Brain-to-Image Retrieval and Reconstruction via Multimodal EEG Alignment》為題提交至arXiv,並於2026年5月18日發佈。

該系統包含兩個主要任務:EEG到圖像的檢索以及EEG到圖像的重建。在檢索任務中,給定一段EEG信號片段,模型需要從200個候選圖像中正確識別出受試者當時觀看的刺激圖像。研究人員採用多級模糊方法,結合受生物學啓發的EVNet特徵,並使用InfoNCE損失函數進行訓練。經過10個隨機種子的評估,檢索模型在單個受試者上的平均最終輪次Top-1準確率達到86.30%,Top-5準確率高達98.55%。這意味着在絕大多數情況下,系統能夠從200張圖片中準確找出受試者正在觀看的圖像,表現出極高的可靠性。

在重建任務中,研究團隊提出名為“CognitionCapturerPro”的方法。該方法將EEG表徵與多模態CLIP嵌入對齊,這些嵌入包括圖像、文本、深度和邊緣信息,進而利用IP-Adapter調節的SDXL-Turbo模型合成圖像。實驗結果顯示,重建模型在10個種子上的平均CLIP評分達到0.903(使用ViT-H-14模型)和0.870(使用ViT-L/14模型),結構相似性指數(SSIM)為0.409。這些指標證明該模型能夠生成與原始視覺刺激高度一致的圖像,儘管距離完美重建仍有差距,但已顯著超越以往嘗試。

這項研究的突破性意義在於,它表明結合現代多模態對齊技術和生成式建模,有可能從非侵入性EEG信號中解碼出豐富的視覺表徵。該工作為腦機接口、神經科學和計算機視覺的交叉領域提供了新的可能性,未來或可將思維直接轉化為可視化的圖像。論文附有代碼,已公開發布,為後續研究提供了堅實基礎。