2026-06-30 16:13 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 16:27 UTC+8

Meta AI發佈Brain2Qwerty v2：基於非侵入式MEG的腦到文本管道，單詞準確率達61%

Meta AI推出Brain2Qwerty v2，一種非侵入式的腦磁圖（MEG）腦到文本管道，在實時解碼打字句子時達到61%的平均單詞準確率，相比此前非侵入式方法僅8%的準確率有大幅提升。該系統無需植入物或手術，結合卷積編碼器、Transformer和字符級語言模型。Meta還發布了兩個版本的訓練代碼。

來源MarkTechPost作者: Asif Razzaq

Meta AI近日發佈了Brain2Qwerty v2，這是一個能夠從非侵入式腦記錄中實時解碼自然句子的系統。該系統通過讀取人在打字時的腦磁圖（MEG）信號，重建其輸入的文本，完全無需植入物或手術。這是2025年2月發佈的Brain2Qwerty v1的後續版本，Meta還同時發佈了兩個版本的完整訓練代碼。該管道結合了卷積編碼器、Transformer和字符級語言模型。

Brain2Qwerty v2是一個腦到文本解碼器，它將原始腦活動映射到字符，再進一步映射到單詞和句子。Meta在九名志願者參與者身上進行了訓練，每人記錄10小時，共約22000個句子。記錄使用MEG設備，該設備以高時間分辨率測量神經元活動產生的磁場。模型利用字符、單詞和句子級別的表示，這種分層設計使其能夠利用更廣泛的上下文糾正局部錯誤。需要強調的是，這仍是研究項目而非產品，僅在少數志願者中測試。數據由西班牙的BCBL（巴斯克認知、大腦與語言中心）收集，並歸該中心所有。

與早期依賴手工設計管道的非侵入式系統不同，Brain2Qwerty v2用端到端深度學習取代了事件檢測步驟。根據Meta的倉庫，模型由三個組件組成：卷積編碼器、Transformer和字符級語言模型。卷積編碼器直接從原始MEG信號中學習特徵，Transformer建模信號中的長程結構，而字符級語言模型則將輸出約束為合理的文本。Meta研究團隊描述了AI實現這一結果的三種方式：深度學習取代手工事件檢測；微調大語言模型以提取語義表示；AI代理通過自動化代碼開發迭代優化解碼管道，但最終訓練配置仍由開發人員手動選擇。在實際應用中，語言模型拒絕不構成真實單詞的字符序列，推動解碼器朝向人類可能打出的句子。

Brain2Qwerty v2的平均單詞準確率達到61%，對應詞錯誤率（WER）為39%。對於最佳參與者，模型達到78%的單詞準確率，且該參與者超過一半的句子誤差不超過一個單詞。相比之下，此前非侵入式方法僅達到8%的單詞準確率。準確率還隨數據量對數線性增長，這意味着更多記錄小時數可預測地提高準確率，為開發者提供了明確的改進路徑。需要指出的是，這些數字來自受控環境下的志願者，並非腦損傷患者的臨牀結果。

Brain2Qwerty v1和v2的指標不同：v1以字符級衡量，v2以單詞級衡量。v1使用MEG和EEG，有35名參與者；v2僅使用MEG，有9名參與者。v1在MEG上達到高達80%的字符準確率，而v2在單詞級別達到61%。v1還顯示MEG解碼至少比EEG系統好兩倍。

該技術的主要動機是恢復溝通能力。數百萬人因腦損傷無法説話或移動。侵入式方法如立體腦電圖和皮層電圖已被用於神經假體，但需要神經外科手術且難以規模化。非侵入式解碼器可能擴大可及性，患者無需植入物即可通過外部記錄打字。對於研究人員，公開代碼支持可重複的神經科學；對於AI工程師，該項目是生物信號解碼的模板；對於數據科學家，對數線性縮放結果是規劃工具。

優勢包括：達到61%單詞準確率（基線8%），使用端到端深度學習，準確率隨數據對數線性增長，代碼公開（CC BY-NC 4.0），架構重用標準組件。侷限性包括：MEG需要磁屏蔽室和靜止受試者，結果來自志願者而非患者，許可證限制商業使用，v2數據集在論文被接收前處於embargo狀態，39%的詞錯誤率仍落後於手術植入物性能。詳情可查看論文、倉庫和技術細節。