Meta AI釋出Brain2Qwerty v2:基於非侵入式MEG的腦到文本管道,單詞準確率達61%
Meta AI推出Brain2Qwerty v2,一種非侵入式的腦磁圖(MEG)腦到文本管道,在即時解碼打字句子時達到61%的平均單詞準確率,相比此前非侵入式方法僅8%的準確率有大幅提升。該系統無需植入物或手術,結合卷積編碼器、Transformer和字元級語言模型。Meta還發布了兩個版本的訓練程式碼。
Meta AI近日釋出了Brain2Qwerty v2,這是一個能夠從非侵入式腦記錄中即時解碼自然句子的系統。該系統透過讀取人在打字時的腦磁圖(MEG)訊號,重建其輸入的文本,完全無需植入物或手術。這是2025年2月釋出的Brain2Qwerty v1的後續版本,Meta還同時釋出了兩個版本的完整訓練程式碼。該管道結合了卷積編碼器、Transformer和字元級語言模型。
Brain2Qwerty v2是一個腦到文本解碼器,它將原始腦活動對映到字元,再進一步對映到單詞和句子。Meta在九名志願者參與者身上進行了訓練,每人記錄10小時,共約22000個句子。記錄使用MEG裝置,該裝置以高時間解析度測量神經元活動產生的磁場。模型利用字元、單詞和句子級別的表示,這種分層設計使其能夠利用更廣泛的上下文糾正區域性錯誤。需要強調的是,這仍是研究專案而非產品,僅在少數志願者中測試。資料由西班牙的BCBL(巴斯克認知、大腦與語言中心)收集,並歸該中心所有。
與早期依賴手工設計管道的非侵入式系統不同,Brain2Qwerty v2用端到端深度學習取代了事件檢測步驟。根據Meta的倉庫,模型由三個元件組成:卷積編碼器、Transformer和字元級語言模型。卷積編碼器直接從原始MEG訊號中學習特徵,Transformer建模訊號中的長程結構,而字元級語言模型則將輸出約束為合理的文本。Meta研究團隊描述了AI實現這一結果的三種方式:深度學習取代手工事件檢測;微調大語言模型以提取語義表示;AI代理透過自動化程式碼開發迭代最佳化解碼管道,但最終訓練配置仍由開發人員手動選擇。在實際應用中,語言模型拒絕不構成真實單詞的字元序列,推動解碼器朝向人類可能打出的句子。
Brain2Qwerty v2的平均單詞準確率達到61%,對應詞錯誤率(WER)為39%。對於最佳參與者,模型達到78%的單詞準確率,且該參與者超過一半的句子誤差不超過一個單詞。相比之下,此前非侵入式方法僅達到8%的單詞準確率。準確率還隨資料量對數線性增長,這意味著更多記錄小時數可預測地提高準確率,為開發者提供了明確的改進路徑。需要指出的是,這些數字來自受控環境下的志願者,並非腦損傷患者的臨床結果。
Brain2Qwerty v1和v2的指標不同:v1以字元級衡量,v2以單詞級衡量。v1使用MEG和EEG,有35名參與者;v2僅使用MEG,有9名參與者。v1在MEG上達到高達80%的字元準確率,而v2在單詞級別達到61%。v1還顯示MEG解碼至少比EEG系統好兩倍。
該技術的主要動機是恢復溝通能力。數百萬人因腦損傷無法說話或移動。侵入式方法如立體腦電圖和皮層電圖已被用於神經假體,但需要神經外科手術且難以規模化。非侵入式解碼器可能擴大可及性,患者無需植入物即可透過外部記錄打字。對於研究人員,公開程式碼支援可重複的神經科學;對於AI工程師,該專案是生物訊號解碼的模板;對於資料科學家,對數線性縮放結果是規劃工具。
優勢包括:達到61%單詞準確率(基線8%),使用端到端深度學習,準確率隨資料對數線性增長,程式碼公開(CC BY-NC 4.0),架構重用標準元件。侷限性包括:MEG需要磁遮蔽室和靜止受試者,結果來自志願者而非患者,許可證限制商業使用,v2資料集在論文被接收前處於embargo狀態,39%的詞錯誤率仍落後於手術植入物效能。詳情可檢視論文、倉庫和技術細節。