2026-05-26 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

マルチモーダルEEGアライメントによる脳から画像への検索と再構成

研究者らは、自然な画像視聴時の脳波（EEG）信号から視覚刺激を解読する脳から画像へのシステムを提案した。EEGから画像への検索（200候補中Top-1精度86.30%、Top-5精度98.55%）とEEGから画像への再構成（CLIPスコア0.903）の2つのタスクを扱う。マルチレベルブラー、EVNet特徴、InfoNCE損失、マルチモーダルCLIPアライメント、SDXL-Turbo生成を組み合わせ、EEG信号からの豊かな視覚表現の解読可能性を示した。

ソースarXiv Computer Vision著者: Chi Kit Wong, Yan Liu, Haowen Yan

新しい研究により、脳波（EEG）信号から視覚刺激を解読する脳から画像へのシステムが開発された。このシステムはChi Kit Wong氏らによって提案され、論文「Brain-to-Image Retrieval and Reconstruction via Multimodal EEG Alignment」としてarXivに投稿された（2026年5月18日）。

システムは2つの主要タスクを担う：EEGから画像への検索とEEGから画像への再構成である。検索タスクでは、与えられたEEG信号セグメントから、被験者が視聴していた正しい刺激画像を200枚の候補の中から特定する。研究者らはマルチレベルブラー手法を採用し、生物学的に着想を得たEVNet特徴とInfoNCE損失関数を用いて学習を行った。10個のランダムシードで評価した結果、単一被験者における最終エポックの平均Top-1精度は86.30%、Top-5精度は98.55%に達した。これは、ほとんどの場合でシステムが200枚の画像から正しいものを特定できることを示しており、非常に高い信頼性を誇る。

再構成タスクでは、「CognitionCapturerPro」と呼ばれる手法が提案された。これはEEG表現を画像、テキスト、深度、エッジを含むマルチモーダルCLIP埋め込みにアライメントし、IP-Adapterで条件付けられたSDXL-Turboモデルを用いて画像を合成する。10個のシード平均で、再構成モデルはViT-H-14を使用した場合のCLIPスコア0.903、ViT-L/14で0.870、SSIMは0.409を達成した。これらの結果は、生成された画像が元の視覚刺激と高い一致性を持つことを示しているが、完全な再構成にはまだ改善の余地がある。

本研究の意義は、現代のマルチモーダルアライメント技術と生成モデリングを組み合わせることで、非侵襲的なEEG信号から豊かな視覚表現を解読できる可能性を示した点にある。この成果は、ブレイン・コンピュータ・インターフェース、神経科学、コンピュータビジョンの分野に新たな展望をもたらし、将来的には思考を直接画像に変換する技術への道を開くものと期待される。論文にはコードも公開されており、今後の研究の基礎を提供している。