AI News HubLIVE
サイト内リライト2 分で読了

Meta AI、Brain2Qwerty v2を公開:非侵襲MEGを用いた脳-テキストパイプライン、単語精度61%を達成

Meta AIはBrain2Qwerty v2を発表しました。これは非侵襲的な脳磁図(MEG)信号からタイピングされた文をリアルタイムでデコードするパイプラインで、平均単語精度61%(従来の非侵襲手法は8%)を達成しています。埋め込みや手術は不要で、畳み込みエンコーダ、トランスフォーマー、文字レベル言語モデルを組み合わせています。Metaはv1とv2両方のトレーニングコードも公開しています。

ソースMarkTechPost著者: Asif Razzaq

Meta AIは最新のBrain2Qwerty v2を発表しました。これは非侵襲的な脳記録から自然文をリアルタイムでデコードするシステムです。人がタイピングしている間の脳磁図(MEG)信号を読み取り、入力されたテキストを再構築します。埋め込みや手術は一切不要です。これは2025年2月にリリースされたBrain2Qwerty v1の後継であり、Metaは両バージョンの完全なトレーニングコードも公開しています。パイプラインは畳み込みエンコーダ、トランスフォーマー、文字レベル言語モデルを組み合わせています。

Brain2Qwerty v2は脳活動を文字、単語、文にマッピングするデコーダです。Metaは9人のボランティア参加者から約22,000文(各10時間の記録)でトレーニングしました。記録はMEGデバイスを使用し、神経活動が生み出す磁場を高時間分解能で測定します。モデルは文字、単語、文レベルの表現を活用し、広いコンテキストで局所的な誤りを修正できる階層的な設計です。これはあくまで研究であり製品ではありません。データはスペインのBCBL(バスク認知・脳・言語センター)が収集し、同センターに帰属します。

従来の非侵襲システムが手動設計のパイプラインに依存していたのに対し、Brain2Qwerty v2はエンドツーエンドの深層学習でイベント検出を置き換えています。Metaのリポジトリによると、モデルは3つのコンポーネントで構成されます。畳み込みエンコーダは生のMEG信号から直接特徴を学習、トランスフォーマーは信号内の長距離構造をモデル化、文字レベル言語モデルは出力を妥当なテキストに制約します。Metaの研究チームは、深層学習による手動イベント検出の置き換え、大規模言語モデルの微調整による意味表現の抽出、AIエージェントによる自動コード開発でのパイプライン反復改善(ただし最終設定は開発者が手動選択)の3つのAI活用方法を挙げています。実際には、言語モデルは単語を形成しない文字列を拒否し、デコーダを人間がタイプするような文に導きます。

Brain2Qwerty v2の平均単語精度は61%(ワードエラーレート39%)、最良参加者では78%の単語精度を達成し、その参加者の半分以上の文で誤りが1単語以下でした。従来の非侵襲手法の精度はわずか8%でした。精度はデータ量に対して対数線形に向上し、記録時間を増やすことで予測可能に改善されます。ただし、これらの数値は管理された環境のボランティアに基づいており、脳損傷患者の臨床結果ではありません。

v1とv2の比較:v1は文字レベルで測定(MEGで最大80%の文字精度)、v2は単語レベル。v1はMEGとEEGを使用、参加者35名。v2はMEGのみ、参加者9名。v1ではMEGデコードがEEGより少なくとも2倍優れていることが示されました。

主な動機はコミュニケーション能力の回復です。数百万人が脳損傷により発話や運動が困難です。侵襲的手法は神経外科手術が必要でスケールが難しいため、非侵襲デコーダはアクセスを広げる可能性があります。研究者向けには公開コードが再現可能な神経科学を支援、AIエンジニア向けには生体信号デコードのテンプレート、データサイエンティスト向けには対数線形スケーリング結果が計画ツールとなります。

強み:非侵襲MEGで61%の単語精度(従来8%)、エンドツーエンド深層学習、データ量に対する対数線形スケーリング、コード公開(CC BY-NC 4.0)、標準コンポーネントの再利用。制限:MEGは磁気シールドルームと静止した被験者が必要、結果は患者ではなくボランティアベース、ライセンスは非商用、v2データセットは論文受理まで保留、39%のWERは外科用インプラントには劣る。詳細は論文、リポジトリ、技術詳細を参照。