通过多模态脑电图对齐实现脑到图像的检索与重建
研究人员提出了一种脑到图像系统,利用自然观看图像时的脑电图(EEG)信号解码视觉刺激。系统包括两个任务:EEG到图像的检索(在200个候选中识别正确图像,Top-1准确率86.30%,Top-5准确率98.55%)和EEG到图像的重建(生成与感知刺激一致的图像,CLIP评分达0.903)。该方法结合多级模糊、EVNet特征、InfoNCE损失以及基于CLIP的多模态对齐和SDXL-Turbo生成模型,展示了从EEG信号解码丰富视觉表征的可行性。
文章情报
要点
- EEG到图像检索:在200个候选图像中,Top-1准确率86.30%,Top-5准确率98.55%。
- EEG到图像重建:CognitionCapturerPro方法,利用多模态CLIP嵌入和SDXL-Turbo,CLIP评分0.903。
- 研究证明现代多模态对齐与生成建模能够有效解码EEG中的视觉信息。
为什么重要
这条新闻值得关注,因为EEG到图像检索:在200个候选图像中,Top-1准确率86.30%,Top-5准确率98.55%。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
一项新的研究成功开发出一种从脑电图(EEG)信号中解码视觉刺激的系统,能够实现脑到图像的检索与重建。该系统由Chi Kit Wong及其同事提出,相关论文以《Brain-to-Image Retrieval and Reconstruction via Multimodal EEG Alignment》为题提交至arXiv,并于2026年5月18日发布。
该系统包含两个主要任务:EEG到图像的检索以及EEG到图像的重建。在检索任务中,给定一段EEG信号片段,模型需要从200个候选图像中正确识别出受试者当时观看的刺激图像。研究人员采用多级模糊方法,结合受生物学启发的EVNet特征,并使用InfoNCE损失函数进行训练。经过10个随机种子的评估,检索模型在单个受试者上的平均最终轮次Top-1准确率达到86.30%,Top-5准确率高达98.55%。这意味着在绝大多数情况下,系统能够从200张图片中准确找出受试者正在观看的图像,表现出极高的可靠性。
在重建任务中,研究团队提出名为“CognitionCapturerPro”的方法。该方法将EEG表征与多模态CLIP嵌入对齐,这些嵌入包括图像、文本、深度和边缘信息,进而利用IP-Adapter调节的SDXL-Turbo模型合成图像。实验结果显示,重建模型在10个种子上的平均CLIP评分达到0.903(使用ViT-H-14模型)和0.870(使用ViT-L/14模型),结构相似性指数(SSIM)为0.409。这些指标证明该模型能够生成与原始视觉刺激高度一致的图像,尽管距离完美重建仍有差距,但已显著超越以往尝试。
这项研究的突破性意义在于,它表明结合现代多模态对齐技术和生成式建模,有可能从非侵入性EEG信号中解码出丰富的视觉表征。该工作为脑机接口、神经科学和计算机视觉的交叉领域提供了新的可能性,未来或可将思维直接转化为可视化的图像。论文附有代码,已公开发布,为后续研究提供了坚实基础。