2026-05-26 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

通过多模态脑电图对齐实现脑到图像的检索与重建

研究人员提出了一种脑到图像系统，利用自然观看图像时的脑电图（EEG）信号解码视觉刺激。系统包括两个任务：EEG到图像的检索（在200个候选中识别正确图像，Top-1准确率86.30%，Top-5准确率98.55%）和EEG到图像的重建（生成与感知刺激一致的图像，CLIP评分达0.903）。该方法结合多级模糊、EVNet特征、InfoNCE损失以及基于CLIP的多模态对齐和SDXL-Turbo生成模型，展示了从EEG信号解码丰富视觉表征的可行性。

来源arXiv Computer Vision作者: Chi Kit Wong, Yan Liu, Haowen Yan

一项新的研究成功开发出一种从脑电图（EEG）信号中解码视觉刺激的系统，能够实现脑到图像的检索与重建。该系统由Chi Kit Wong及其同事提出，相关论文以《Brain-to-Image Retrieval and Reconstruction via Multimodal EEG Alignment》为题提交至arXiv，并于2026年5月18日发布。

该系统包含两个主要任务：EEG到图像的检索以及EEG到图像的重建。在检索任务中，给定一段EEG信号片段，模型需要从200个候选图像中正确识别出受试者当时观看的刺激图像。研究人员采用多级模糊方法，结合受生物学启发的EVNet特征，并使用InfoNCE损失函数进行训练。经过10个随机种子的评估，检索模型在单个受试者上的平均最终轮次Top-1准确率达到86.30%，Top-5准确率高达98.55%。这意味着在绝大多数情况下，系统能够从200张图片中准确找出受试者正在观看的图像，表现出极高的可靠性。

在重建任务中，研究团队提出名为“CognitionCapturerPro”的方法。该方法将EEG表征与多模态CLIP嵌入对齐，这些嵌入包括图像、文本、深度和边缘信息，进而利用IP-Adapter调节的SDXL-Turbo模型合成图像。实验结果显示，重建模型在10个种子上的平均CLIP评分达到0.903（使用ViT-H-14模型）和0.870（使用ViT-L/14模型），结构相似性指数（SSIM）为0.409。这些指标证明该模型能够生成与原始视觉刺激高度一致的图像，尽管距离完美重建仍有差距，但已显著超越以往尝试。

这项研究的突破性意义在于，它表明结合现代多模态对齐技术和生成式建模，有可能从非侵入性EEG信号中解码出丰富的视觉表征。该工作为脑机接口、神经科学和计算机视觉的交叉领域提供了新的可能性，未来或可将思维直接转化为可视化的图像。论文附有代码，已公开发布，为后续研究提供了坚实基础。