AI News HubLIVE
站内改写7 分で読了

統計的か身体的か?色のメタファー処理における人間とLLMの比較:ダグラス・ギルボー氏へのインタビュー

ダグラス・ギルボー(Douglas Guilbeault)氏に、彼の論文「色覚者、色覚異常者、画家、大規模言語モデルにおける色のメタファー処理の比較」について話を伺いました。結果は、人間の認知をモデル化する方法、そして共感覚の概念を統合してよりインテリジェントなAIモデルを開発する方法に興味深い示唆を与えています。色のメタファーは、LLMが本当に言語を理解しているかどうかをテストする重要なケースであり、研究では、LLMは統計パターンを学習できるものの、人間の身体化された認知に依存する豊かな経験を欠いていることが示されています。

ソースAIhub著者: Ella Scallan

私たちはダグラス・ギルボー氏に座談し、彼の論文「色覚者、色覚異常者、画家、大規模言語モデルにおける色のメタファー処理の比較」について議論しました。その結果は、人間の認知をモデル化する方法、そして共感覚の概念を統合してよりインテリジェントなAIモデルを開発する方法に興味深い示唆を与えています。

色のメタファーとは何か?色のメタファーとは、色を使って文字通りではない方法で何かを説明することです。例えば、「嫉妬で緑になる」と言うのは色のメタファーです。なぜなら、嫉妬には直接的な視覚構造がなく、緑が伝えるより広く柔軟な概念を呼び起こしているからです。メタファーが非常に興味深いのは、過去の経験や文化的連想を新しい方法で利用して、現在の知覚を超えた何か(想像上のものや未来のもの)について語ることが多いためです。これらは現在からいくつもの抽象化の段階を経ています。メタファーはそこに到達するための代替経路を提供します。

メタファーを考えることがLLMの構築にどのように役立つか?メタファーを理解することは重要です。なぜなら、メタファーは言語の至る所に存在するからです。私たちは毎日、それらがメタファーであることに気づかずに多くのメタファーを使用しています。例えば、「あなたにメッセージを伝える」と言う場合、メッセージが物体のように空間を移動していると想像しているようなものです。あるいは「アイデアを掴む」と言う場合、概念を物理的に保持できると想像しています。これらもメタファーですが、私たちは非常に親しんでいます。

大規模言語モデルは、既存のテキスト内の単語のシーケンスを予測することに依存しており、学習する内容と利用可能なデータの間にはかなり厳密な関係があります。メタファーはLLMにとって特に挑戦的な文脈を提供します。LLMは人間と同様の言語理解を発達させているのでしょうか?訓練データを大幅に超えて、過去の関連性や言語概念を柔軟に使用して新しいことについて語ることができるのでしょうか?

色のメタファーは、この問題に取り組むための有用な方法です。なぜなら、制御された環境を提供し、さまざまなケースを使用できるからです。日常的な色の使用(空は青い、草は緑など)があります。これは、LLMのような統計エンジンが草が緑と説明される頻度を学習できると期待される種類のものです。また、訓練データでよく表現されるメタファー(怒りが赤と表現されるなど)もあります。モデルがその統計パターンを学習できると期待されます。

なぜ色が重要な研究概念なのか?イメージ(精神的、視覚的、感覚的を問わず)は認知の付随現象ではなく、思考そのものに不可欠であるという証拠が多くあります。読書や発話中、意識的に経験するかどうかに関わらず、脳のイメージに関連する部分が活性化されます。LLMが単語のパターンを学習するだけで視覚体験の本質と豊かさを回復できるという根本的な懐疑論があります。身体化認知の分野では、すべての豊かな視覚体験は視覚だけでなく感覚体験全体にとって重要であり、記憶や注意から概念の性質に至るまであらゆるものに影響を与えるということが基本です。これが色のようなものを考えるときに私たちが念頭に置いていることです。色は単に視覚的に物を区別する以上の非常に多くの意味を持っています。

身体化認知の視点と純粋な数字仮説をテストするためにどのような方法論を使用しましたか?私たちの論文では、LLMを色覚者、画家、色覚異常者と比較し、統計的アプローチがどこまで到達できるか、そして何を捉えていないかを示しました。これをテストするためにいくつかの異なるパラダイムを使用しました。あるパラダイムでは、参加者は単語が何色だと思うかを示さなければなりませんでした。私たちは感情など非常に馴染みのある領域からの単語を使用し、訓練データに学習可能なパターンがあると予想したため、統計的アプローチはうまくいくはずでした。次に、より難しくしました。例えば、数字の色を尋ねる場合です。ここでは一種の共感覚が現れ、一部の人々は色と数字の間に非常に強い関連性があると報告しますが、明確な関連性はありません。別のパラダイムでは、さらに進んで、存在しない完全に新しい単語に色を関連付けるように求めました。これらは疑似単語であり、英語の文法構造に従い、標準的な手順に従って生成されます。統計がここで役立つ方法もあります。例えば、「glicker」という単語があり、LLMはそれを明るい光に関連するものと認識できます。「glint」「gleam」「glimmer」を考えると、光に関連する意味テーマがあります。モデルや色覚異常者がそれに気づけば、統計的関連性に影響を与えるでしょう。あるいは、「Lord」や「blodomer」のようにテキスト上で血のように見える単語を見る場合、それが赤いと思うかもしれません。そして、統計的に一貫した接続を特定することがますます難しくなる他の無意味な単語があります。

なぜ色覚異常者とLLMを色のメタファーの理解で比較することにしたのですか?色覚異常者が色に関する言語を適切に使用できることは、すでに多くの研究で確立されています。しかし、視覚体験が欠如しているために理解できない何かがあるのでしょうか?メタファーに欠けているものがあるのか、それとも統計的関連性を学ぶだけで十分なのでしょうか?身体化認知の分野からの議論の一つは、通常の認知では、視覚障害者やLLMが色と言語を理解するために使用する統計的予測を超えて、何か他のことが起こっているというものです。この研究では、統計的予測を超える何かがあるなら、LLMと色覚異常者の間に違いがあるはずだという議論を検証しようと試みました。私たちは実際にいくつかの非常に興味深い違いに気づきました。

結果はどうでしたか?私たちの結果の一つは、すべてのグループが非常に強い色の関連性を持っていたことです。明らかに、私たちが気づいているよりも多くの人々が一種の共感覚を持っており、それらの間にはかなりの一致があります。これは非常に頑健で基礎的な現象であり、人間の認知(ましてやAIの認知)の良い理論を持つためには、おそらくそれを考慮に入れるべきです。これを説明すると、あなたは個人的に曜日に色があるとは感じないかもしれませんが、集合的には強い関連性があります。私たちは以前の論文でこれを最初に調査しました。

本当に印象的だったのは、AIが非常に強い色の関連性を持っていたことです。これは人々に全く予想されていなかったと思いますし、自然に現れたものです。誰もこれらの色の関連性を持つように構築していません。むしろ、それは共感覚のようなパターンが創発現象としていかに頑健であるかを物語っています。なぜなら、AIがそれを自分で再現したからです。

しかし、実際の色の関連性を比較すると、AIは色覚者と色覚異常者の両方からかなり異なる色の関連性を提供することがよくわかります。実際、色覚者と色覚異常者はAIよりもずっと近い関係にありました。これは興味深い疑問を提起します。もし色覚異常者が以前の理論が期待したように単に統計的推論を使用しているなら、彼らは色覚者よりもAIにずっと近いはずです。この結果は多くの既存の文献によって支持されています。私たちの解釈は、色覚異常者が統計だけでこれらの問題を解決していると言うのは単純化しすぎであるということです。色覚異常者が特定の色の知覚に制限があっても、彼らは依然として強く身体化された認知主体です。彼らには感情があり、豊かな音響体験があり、また色の身体化された知覚も持っています。中には少数の色を見る人もいますが、まったく色を見ない人でも、自然色が白黒連続体の中での様々なグレースケールの階調を見ることを可能にするという非常に興味深い研究があります。白黒で見ることは特に夜間に奥行き知覚を向上させるという証拠さえあり、実際に視覚体験の側面を改善できます。私たちは、色覚異常者が実際の経験や感情、そしてそれが他のものとどのように結びつくかの理解を取り入れることで、身体化された推論とメタファー推論の側面を学習し回復できると主張しました。

ボボ・キキ効果をご存知ですか?丸い形と尖った形の2つの図形を描き、どちらがボボでどちらがキキか尋ねると、圧倒的多数の人がキキを尖ったもの、ボボを丸いものと答えます。これは、私たちがメタファー的な性質の非常に強い直感を持っていることを示しています。ボボには何か丸い感じがあるのです。音自体は丸くないですが、口で作るOの形や、波長にやや丸みのある側面があるかもしれません。境界がより鋭く、視覚的にも鋭いです。そこにはメタファーがありますが、一種の抽象的な共鳴があります。これらは色覚異常者が身体化された主体として依然として持っている種類のものです。ボボ・キキ効果は彼らの心にしっかりと組み込まれているため、このスタイルの推論を活用し、様々なケースで役立てることができます。

研究の意義について教えてください。認知科学とAIの間の対話は、競合する見解間の緊張としてますます特徴づけられるようになってきました。AIの視点はしばしば純粋言語仮説と呼ばれます。つまり、言語データの予測、生成、学習を通じて、これらのモデルは人間の経験と知識に関連する基本的な豊かさと中核的な意味を回復するという見解です。身体化認知の陣営はこの見解に反対しています。彼らは、言語は本質的に、経験の豊かさを大幅に単純化して概念を迅速に共有できるように設計されたコミュニケーションシステムであると主張します。色は良い例です。英語の色の平均語彙はわずか12語ですが、あなたはすぐに、もっと多くの色を見ているという経験を持っています。ほとんどの場合、協調して相互作用するために、それらすべての微妙な差異を強調する必要はありません。

したがって、認知側は、現在のところ、ベイズスタイルであれ深層学習モデルであれ、LLMの既成の統計的フレームワークは、そのような関係を説明するには程遠いと主張しています。「嫉妬で緑になる」の意味を理解するためには、嫉妬と緑の両方に付随する意味の宇宙とそれらの間のマッピングについて何かを理解する必要があります。統計的関連性は非常に基本的であり、物事がどのように機能するかについて満足のいく説明を提供しません。LLMは予測するための非常に印象的な能力を発展させますが、結局のところ、彼らは単にシーケンスの予測を習得しようとしているに過ぎず、それは人間の心や脳が同じプロセスを行う方法ではありません。私たちは他のあらゆる種類の身体化された、メタファー的な、類推的なものを通じて学習しています。

この分野でどのような将来の研究を計画していますか?これはより良いAIモデルを構築するためにどのように応用できますか?この論文は、私が共同研究者と構築してきた一連の研究の一部であり、それを計算論的共感覚と呼んでいます。その前提は、これらの共感覚パターンが認知を理解するための非常に強力なモデル有機体であるだけでなく、経験の非常に異なる部分からのものを結びつけるということです。数字には色があってはならないと考えるでしょう。定義上、数字は可能な限り最も抽象的なものであるはずです…(AIコスト抑制のため本文は省略)