AI News HubLIVE
站内改写2 分钟阅读

Meta AI发布Brain2Qwerty v2:基于非侵入式MEG的脑到文本管道,单词准确率达61%

Meta AI推出Brain2Qwerty v2,一种非侵入式的脑磁图(MEG)脑到文本管道,在实时解码打字句子时达到61%的平均单词准确率,相比此前非侵入式方法仅8%的准确率有大幅提升。该系统无需植入物或手术,结合卷积编码器、Transformer和字符级语言模型。Meta还发布了两个版本的训练代码。

来源MarkTechPost作者: Asif Razzaq

Meta AI近日发布了Brain2Qwerty v2,这是一个能够从非侵入式脑记录中实时解码自然句子的系统。该系统通过读取人在打字时的脑磁图(MEG)信号,重建其输入的文本,完全无需植入物或手术。这是2025年2月发布的Brain2Qwerty v1的后续版本,Meta还同时发布了两个版本的完整训练代码。该管道结合了卷积编码器、Transformer和字符级语言模型。

Brain2Qwerty v2是一个脑到文本解码器,它将原始脑活动映射到字符,再进一步映射到单词和句子。Meta在九名志愿者参与者身上进行了训练,每人记录10小时,共约22000个句子。记录使用MEG设备,该设备以高时间分辨率测量神经元活动产生的磁场。模型利用字符、单词和句子级别的表示,这种分层设计使其能够利用更广泛的上下文纠正局部错误。需要强调的是,这仍是研究项目而非产品,仅在少数志愿者中测试。数据由西班牙的BCBL(巴斯克认知、大脑与语言中心)收集,并归该中心所有。

与早期依赖手工设计管道的非侵入式系统不同,Brain2Qwerty v2用端到端深度学习取代了事件检测步骤。根据Meta的仓库,模型由三个组件组成:卷积编码器、Transformer和字符级语言模型。卷积编码器直接从原始MEG信号中学习特征,Transformer建模信号中的长程结构,而字符级语言模型则将输出约束为合理的文本。Meta研究团队描述了AI实现这一结果的三种方式:深度学习取代手工事件检测;微调大语言模型以提取语义表示;AI代理通过自动化代码开发迭代优化解码管道,但最终训练配置仍由开发人员手动选择。在实际应用中,语言模型拒绝不构成真实单词的字符序列,推动解码器朝向人类可能打出的句子。

Brain2Qwerty v2的平均单词准确率达到61%,对应词错误率(WER)为39%。对于最佳参与者,模型达到78%的单词准确率,且该参与者超过一半的句子误差不超过一个单词。相比之下,此前非侵入式方法仅达到8%的单词准确率。准确率还随数据量对数线性增长,这意味着更多记录小时数可预测地提高准确率,为开发者提供了明确的改进路径。需要指出的是,这些数字来自受控环境下的志愿者,并非脑损伤患者的临床结果。

Brain2Qwerty v1和v2的指标不同:v1以字符级衡量,v2以单词级衡量。v1使用MEG和EEG,有35名参与者;v2仅使用MEG,有9名参与者。v1在MEG上达到高达80%的字符准确率,而v2在单词级别达到61%。v1还显示MEG解码至少比EEG系统好两倍。

该技术的主要动机是恢复沟通能力。数百万人因脑损伤无法说话或移动。侵入式方法如立体脑电图和皮层电图已被用于神经假体,但需要神经外科手术且难以规模化。非侵入式解码器可能扩大可及性,患者无需植入物即可通过外部记录打字。对于研究人员,公开代码支持可重复的神经科学;对于AI工程师,该项目是生物信号解码的模板;对于数据科学家,对数线性缩放结果是规划工具。

优势包括:达到61%单词准确率(基线8%),使用端到端深度学习,准确率随数据对数线性增长,代码公开(CC BY-NC 4.0),架构重用标准组件。局限性包括:MEG需要磁屏蔽室和静止受试者,结果来自志愿者而非患者,许可证限制商业使用,v2数据集在论文被接收前处于embargo状态,39%的词错误率仍落后于手术植入物性能。详情可查看论文、仓库和技术细节。