AI News HubLIVE
サイト内リライト1 分で読了

手話モデルの音韻認識

この研究では、アメリカ手話(ASL)で訓練された手話認識(SLR)モデルの音韻認識能力を評価。最小対を用いたプロービングと人間の行動データとの表現アライメントにより、モデルが創発的な音韻感度を示すが、アーキテクチャに依存するトレードオフがあることを発見。ポーズベースモデルは手形の対比に敏感で、ピクセルベースモデルは位置変化をより捉える。また、ポーズベースモデルの潜在表現は人間の類似性判断と相関する(r~0.49)。

ソースarXiv Computational Linguistics著者: Kayo Yin, Jessica Carter, Alex Xijie Lu, Annemarie Kocab

手話は、手形、位置、動きなどの下位語彙的な音韻パラメータの組み合わせによって意味が生じる構成言語システムです。深層学習モデルは手話認識(SLR)の翻訳ベンチマークで高い性能を達成していますが、それらのモデルが抽象的な音韻特徴を区別しているのか、それとも単に低レベルの統計的相関に依存しているのかは不明でした。

この度、Kayo Yin氏らによる研究論文「Phonological Perception of Sign Language Models」がarXivで公開され、CogSci 2026に採択されました。研究チームは、アメリカ手話(ASL)で訓練されたSLRモデルの音韻知覚を評価するため、最小対を用いたプロービングと、人間の行動データとの表現アライメントを実施しました。

実験では、手形のみが異なる最小対や位置のみが異なる最小対を用いて、モデルの音韻感度を測定。その結果、SLRモデルは創発的な音韻感度を示すものの、アーキテクチャに依存したトレードオフがあることが明らかになりました。具体的には、ポーズベースモデル(骨格点を入力とする)は手形の対比に敏感であり、ピクセルベースモデル(生のフレームを入力とする)は位置変化をよりよく捉えます。さらに、ポーズベースモデルの潜在表現は人間の知覚類似性判断と有意な相関を示しました(r≈0.49)。

これらの結果は、現在の学習パラダイムではアーキテクチャの帰納的バイアスを克服できないことを示唆しており、より人間の知覚に即した手話認識システムの開発には、新しい学習手法やハイブリッドアーキテクチャの探求が必要であることを示しています。この研究は、手話認識の基礎的理解を深め、今後の技術発展に重要な指針を与えるものです。