Meta AI發佈Brain2Qwerty v2:基於非侵入式MEG的腦到文本管道,單詞準確率達61%
Meta AI推出Brain2Qwerty v2,一種非侵入式的腦磁圖(MEG)腦到文本管道,在實時解碼打字句子時達到61%的平均單詞準確率,相比此前非侵入式方法僅8%的準確率有大幅提升。該系統無需植入物或手術,結合卷積編碼器、Transformer和字符級語言模型。Meta還發布了兩個版本的訓練代碼。
Meta AI近日發佈了Brain2Qwerty v2,這是一個能夠從非侵入式腦記錄中實時解碼自然句子的系統。該系統通過讀取人在打字時的腦磁圖(MEG)信號,重建其輸入的文本,完全無需植入物或手術。這是2025年2月發佈的Brain2Qwerty v1的後續版本,Meta還同時發佈了兩個版本的完整訓練代碼。該管道結合了卷積編碼器、Transformer和字符級語言模型。
Brain2Qwerty v2是一個腦到文本解碼器,它將原始腦活動映射到字符,再進一步映射到單詞和句子。Meta在九名志願者參與者身上進行了訓練,每人記錄10小時,共約22000個句子。記錄使用MEG設備,該設備以高時間分辨率測量神經元活動產生的磁場。模型利用字符、單詞和句子級別的表示,這種分層設計使其能夠利用更廣泛的上下文糾正局部錯誤。需要強調的是,這仍是研究項目而非產品,僅在少數志願者中測試。數據由西班牙的BCBL(巴斯克認知、大腦與語言中心)收集,並歸該中心所有。
與早期依賴手工設計管道的非侵入式系統不同,Brain2Qwerty v2用端到端深度學習取代了事件檢測步驟。根據Meta的倉庫,模型由三個組件組成:卷積編碼器、Transformer和字符級語言模型。卷積編碼器直接從原始MEG信號中學習特徵,Transformer建模信號中的長程結構,而字符級語言模型則將輸出約束為合理的文本。Meta研究團隊描述了AI實現這一結果的三種方式:深度學習取代手工事件檢測;微調大語言模型以提取語義表示;AI代理通過自動化代碼開發迭代優化解碼管道,但最終訓練配置仍由開發人員手動選擇。在實際應用中,語言模型拒絕不構成真實單詞的字符序列,推動解碼器朝向人類可能打出的句子。
Brain2Qwerty v2的平均單詞準確率達到61%,對應詞錯誤率(WER)為39%。對於最佳參與者,模型達到78%的單詞準確率,且該參與者超過一半的句子誤差不超過一個單詞。相比之下,此前非侵入式方法僅達到8%的單詞準確率。準確率還隨數據量對數線性增長,這意味着更多記錄小時數可預測地提高準確率,為開發者提供了明確的改進路徑。需要指出的是,這些數字來自受控環境下的志願者,並非腦損傷患者的臨牀結果。
Brain2Qwerty v1和v2的指標不同:v1以字符級衡量,v2以單詞級衡量。v1使用MEG和EEG,有35名參與者;v2僅使用MEG,有9名參與者。v1在MEG上達到高達80%的字符準確率,而v2在單詞級別達到61%。v1還顯示MEG解碼至少比EEG系統好兩倍。
該技術的主要動機是恢復溝通能力。數百萬人因腦損傷無法説話或移動。侵入式方法如立體腦電圖和皮層電圖已被用於神經假體,但需要神經外科手術且難以規模化。非侵入式解碼器可能擴大可及性,患者無需植入物即可通過外部記錄打字。對於研究人員,公開代碼支持可重複的神經科學;對於AI工程師,該項目是生物信號解碼的模板;對於數據科學家,對數線性縮放結果是規劃工具。
優勢包括:達到61%單詞準確率(基線8%),使用端到端深度學習,準確率隨數據對數線性增長,代碼公開(CC BY-NC 4.0),架構重用標準組件。侷限性包括:MEG需要磁屏蔽室和靜止受試者,結果來自志願者而非患者,許可證限制商業使用,v2數據集在論文被接收前處於embargo狀態,39%的詞錯誤率仍落後於手術植入物性能。詳情可查看論文、倉庫和技術細節。