AI News HubLIVE
サイト内リライト2 分で読了

AIにおけるジェンダーバイアスの概要

本稿では、AIモデルにおけるジェンダーバイアスの研究を概観する。単語埋め込み、顔認識、照応解決、大規模言語モデル、画像生成モデルにおけるバイアスを扱い、研究のギャップ、他のバイアスの種類、そしてバイアスを「修正」する方法に関する哲学的問題について議論する。

ソースThe Gradient著者: Yennie Jun

人工知能モデルは現実世界に存在するジェンダーバイアスを反映し、しばしば増幅する。これらのバイアスを適切に対処し緩和するためには、モデル内のバイアスを定量化することが重要である。本稿では、AIモデルにおけるジェンダーバイアスのさまざまな側面を明らかにし、評価し、測定するために行われてきた重要な研究の一部を紹介し、その意義と研究のギャップについて議論する。

まず、用語の定義を行う。「AI」は人間が作成したデータで訓練された機械学習システムを指し、単語埋め込みのような統計モデルからChatGPTのようなTransformerベースのモデルまでを含む。「ジェンダー」はAI研究の文脈では通常、二元的な男性/女性を対象とし(コンピュータ科学者が測定しやすいため)、時折「中性」カテゴリが含まれる。「バイアス」はここでは、あるグループに対する不平等で不利な扱いを広く意味する。バイアス、ステレオタイプ、害悪の分類および定量化には多くの方法があるが、本稿の範囲外である。

次に、影響力のある研究を時系列で紹介する。Bolukbasiら(2016)は単語埋め込みにジェンダーバイアスが存在することを発見し、「男性はプログラマー、女性は主婦」のような類推を示し、性別中性語彙に基づく偏りのない埋め込み手法を提案した。BuolamwiniとGebru(2018)の「Gender Shades」研究では、市販の性別分類システムが暗色肌の女性に対して最大34.7%の誤り率を示し、明色肌の男性では0.8%であったことを明らかにし、MicrosoftとIBMがモデルを改善するきっかけとなった。Rudingerら(2018)は照応解決モデルが職業に対する代名詞の解決にジェンダーバイアスを示すことを実証した(例:「外科医」は「彼」に解決されやすい)。Parrishら(2021)のBBQベンチマークは、大規模言語モデルが曖昧な文脈で77%の確率で有害なステレオタイプを強化することを示した。Luccioniら(2023)の「Stable Bias」研究では、画像生成モデル(DALL-E 2など)が「CEO」というプロンプトに対して97%の確率で白人男性を生成することがわかった。

現在の研究にはギャップがある。ほとんどの研究は特定のベンチマークに焦点を当てており、モデルがそのバイアスのみを最適化し、他のバイアスを見落とす可能性がある。著者は自身のブログ実験を通じて、言語モデルが歴史的人物の生成に性別および地理的バイアスを持つこと、GPTモデルが職業の関連付けで過剰修正を示すことを明らかにした。また、研究の多くが二元的ジェンダーと英語圏に偏っており、文化的・地理的バイアスやより広い集団への配慮が不足している。例えば、一般的なオープンソース画像データセットOpen ImagesとImageNetの大部分は米国と英国から収集されており、AI生成画像が西洋の文化的設定を反映する傾向がある。

バイアスを「修正」する方法については、技術的手法だけでなく哲学的な問いも存在する:モデルは現実の偏りを反映すべきか、理想的な公平を目指すべきか?現在、AIモデルは公の監視のもとでバイアスが発見され修正されるサイクルを繰り返している。最終的に、AIの社会的バイアスを評価することは、私たちがどのようなツールと世界を望むかを考える助けとなる。