2026-06-30 16:13 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 16:27 UTC+8

Meta AI釋出Brain2Qwerty v2：基於非侵入式MEG的腦到文本管道，單詞準確率達61%

Meta AI推出Brain2Qwerty v2，一種非侵入式的腦磁圖（MEG）腦到文本管道，在即時解碼打字句子時達到61%的平均單詞準確率，相比此前非侵入式方法僅8%的準確率有大幅提升。該系統無需植入物或手術，結合卷積編碼器、Transformer和字元級語言模型。Meta還發布了兩個版本的訓練程式碼。

來源MarkTechPost作者: Asif Razzaq

Meta AI近日釋出了Brain2Qwerty v2，這是一個能夠從非侵入式腦記錄中即時解碼自然句子的系統。該系統透過讀取人在打字時的腦磁圖（MEG）訊號，重建其輸入的文本，完全無需植入物或手術。這是2025年2月釋出的Brain2Qwerty v1的後續版本，Meta還同時釋出了兩個版本的完整訓練程式碼。該管道結合了卷積編碼器、Transformer和字元級語言模型。

Brain2Qwerty v2是一個腦到文本解碼器，它將原始腦活動對映到字元，再進一步對映到單詞和句子。Meta在九名志願者參與者身上進行了訓練，每人記錄10小時，共約22000個句子。記錄使用MEG裝置，該裝置以高時間解析度測量神經元活動產生的磁場。模型利用字元、單詞和句子級別的表示，這種分層設計使其能夠利用更廣泛的上下文糾正區域性錯誤。需要強調的是，這仍是研究專案而非產品，僅在少數志願者中測試。資料由西班牙的BCBL（巴斯克認知、大腦與語言中心）收集，並歸該中心所有。

與早期依賴手工設計管道的非侵入式系統不同，Brain2Qwerty v2用端到端深度學習取代了事件檢測步驟。根據Meta的倉庫，模型由三個元件組成：卷積編碼器、Transformer和字元級語言模型。卷積編碼器直接從原始MEG訊號中學習特徵，Transformer建模訊號中的長程結構，而字元級語言模型則將輸出約束為合理的文本。Meta研究團隊描述了AI實現這一結果的三種方式：深度學習取代手工事件檢測；微調大語言模型以提取語義表示；AI代理透過自動化程式碼開發迭代最佳化解碼管道，但最終訓練配置仍由開發人員手動選擇。在實際應用中，語言模型拒絕不構成真實單詞的字元序列，推動解碼器朝向人類可能打出的句子。

Brain2Qwerty v2的平均單詞準確率達到61%，對應詞錯誤率（WER）為39%。對於最佳參與者，模型達到78%的單詞準確率，且該參與者超過一半的句子誤差不超過一個單詞。相比之下，此前非侵入式方法僅達到8%的單詞準確率。準確率還隨資料量對數線性增長，這意味著更多記錄小時數可預測地提高準確率，為開發者提供了明確的改進路徑。需要指出的是，這些數字來自受控環境下的志願者，並非腦損傷患者的臨床結果。

Brain2Qwerty v1和v2的指標不同：v1以字元級衡量，v2以單詞級衡量。v1使用MEG和EEG，有35名參與者；v2僅使用MEG，有9名參與者。v1在MEG上達到高達80%的字元準確率，而v2在單詞級別達到61%。v1還顯示MEG解碼至少比EEG系統好兩倍。

該技術的主要動機是恢復溝通能力。數百萬人因腦損傷無法說話或移動。侵入式方法如立體腦電圖和皮層電圖已被用於神經假體，但需要神經外科手術且難以規模化。非侵入式解碼器可能擴大可及性，患者無需植入物即可透過外部記錄打字。對於研究人員，公開程式碼支援可重複的神經科學；對於AI工程師，該專案是生物訊號解碼的模板；對於資料科學家，對數線性縮放結果是規劃工具。

優勢包括：達到61%單詞準確率（基線8%），使用端到端深度學習，準確率隨資料對數線性增長，程式碼公開（CC BY-NC 4.0），架構重用標準元件。侷限性包括：MEG需要磁遮蔽室和靜止受試者，結果來自志願者而非患者，許可證限制商業使用，v2資料集在論文被接收前處於embargo狀態，39%的詞錯誤率仍落後於手術植入物效能。詳情可檢視論文、倉庫和技術細節。