人々の好みを予測する際には「3つの力」を考慮すると効果的
MITの研究者が、約1世紀前のランダム効用モデルに大幅な改良を加えました。従来の2者比較では選択肢間の相関を捉えられないという欠点を指摘し、3つの選択肢を順位付けすることでより正確な予測が可能になることを示しました。
1927年、アメリカの心理学者L.L.サーストン(L. L. Thurstone)は論文「比較判断の法則」の中で、人が複数の選択肢の中から一つを選ぶ際、たとえその選択に特定の数値を割り当てられなくても、自分にとって最も価値の高いものを選んでいるという仮説を提唱しました。サーストンは「精神測定学」の先駆者であり、この分野は、目に見えない精神プロセスでも測定・定量化できるという前提に基づいています。彼の1927年の論文は、現在ランダム効用モデル(RUM)と呼ばれるものの基礎を築き、人間の選好を記述する数学的枠組みを提供しました。この情報は、さまざまな仮想的状況について予測を行う際に活用できます。
ランダム効用モデルは、与えられた選択から得られる「効用」または利益を評価することからその名が付けられました。例えば、図書館から借りてきた小説の山から最初にどの本を読むかを決める場合などです。MIT電気工学・コンピュータ科学科(EECS)の助教授で情報・意思決定システム研究所(LIDS)の主任研究員であるガブリエル・ファリーナ(Gabriele Farina)氏は、「これらのモデルは本質的にランダムです。なぜなら人はそれぞれ異なるからです。誰もが独自の好みを持ち、その好みは時とともに変化することもあります」と説明します。例えば、通常は朝にコーヒーを選び、夕食後には紅茶を好む人が、時にはその順序を完全に逆転させることもあります。
RUMは、政府や産業界で、ホットドリンクやアイスドリンクの選択よりもはるかに重要な場面で頻繁に使用されています。これらのモデルは、反実仮想(「もし~なら」)シナリオにおける人々の行動予測を容易にします。例えば、主要道路が工事で閉鎖された場合、人々はどのように通勤するか?どの経路や交通手段を選ぶか?あるいは、都市が突然2000万ドルの資金を得た場合、共通善を最大化するためにどのように資金を配分すべきか?
RUMがほぼ100年にわたって存在し、時間とともに洗練されてきたことを考えると、この段階で改善の余地はほとんどないと思うかもしれません。しかし、そうではありません。
今年4月にブラジルのリオデジャネイロで開催された国際学習表現会議(ICLR)で発表された論文は、これらのモデルから従来考えられていたよりもはるかに多くの情報を引き出せることを示す基本的な事実を明らかにしました。著者は、MITの元博士研究員で現在シンガポールの南洋理工大学に所属するYeshwanth Cherapanamjeri氏、ファリーナ氏(MITオペレーションズリサーチセンターのコア教員でもある)、MITコンピュータサイエンスのAvanessians教授でコンピュータ科学・人工知能研究所のメンバーであるConstantinos Daskalakis氏、そしてMITコンピュータ科学の博士課程学生でLIDSとEECSに所属するSobhan Mohammadpour氏です。
このグループの発見は、部分的には、サーストンの時代から続くRUMの一般的な推定方法の欠点に起因しています。モデル推定に使用されるデータは、主に「二者比較」から得られてきました。Netflixの映画、Amazon.comの競合製品、Googleのニュース記事など、AとBの選択肢の間でどちらを選ぶか?Daskalakis氏は、このアプローチがこれほど普及した理由の一つは、「単一のアイテムから得られる利益に4.37のような正確な数値を割り当てることは非常に難しいのに対し、二つのものを比較してどちらが好きかを決めることは認知的にはるかに容易であるからだ」と説明します。しかし、ここに問題があると彼は付け加えます。「この方法で人の好みを評価すると、一度に二つのものしか見ないため、多数の選択肢間の相関を見つけることが不可能になります。」
RUMの標準的な適用方法は、AとBから得られる効用が独立していると仮定しますが、実際にはこれらは関連している可能性があり、それを知ることは重要です。例えば、選挙に立候補している人が、ある有権者が銃規制を支持していることを知った場合、同じ人が政府による育児支援も支持している可能性が高いです。同様に、独立系映画のファンは外国映画も好むかもしれませんが、ハリウッドのアクション大作にはあまり熱心でないかもしれません。Daskalakis氏は、「デジタルプラットフォームがそのような相関の存在を見過ごすと、選好を正確に推定できなくなります。Netflixが興味のない映画ばかりを表示すれば、ユーザーはログオフしてサブスクリプションをキャンセルするかもしれません。」と指摘します。
MITチームは、二者比較だけでは相関に関する情報を得ることが不可能であることを証明しました。しかし、多数の人が三つの選択肢を好みの順にランク付けすると、相関を識別できます。同じ情報は、最良の三つと最良の二つの選択を組み合わせることでも得られます。実際には、Mohammadpour氏は「多くの人に三つのアイテムをランク付けしてもらいます。そして、個々の結果を一つの大きなモデルに統合し、全体像を提供する方法を活用できます」と説明します。
ファリーナ氏によると、彼らの研究はRUMの計算面に焦点を当てており、選好情報を抽出するアルゴリズムを考案し、そのために必要なデータ量、つまりいくつの実験を実行する必要があるかを解明することを目指しています。彼によると、良いニュースは、この目的のための効率的なアルゴリズムが実際に可能であることです。必要な実験数は、調査対象のカタログやデータベース内のアイテム数に比例して指数関数的に増加することはありません。
「この論文は画期的な進展を提供します」とモントリオール大学のコンピュータ科学者エマ・フレジンガー(Emma Frejinger)氏はコメントしています。「従来のデータ収集がなぜ失敗するのかを数学的に証明し、ユーザーに最良の三つの選択を尋ねるだけで、これらの強力なモデルを正確に訓練する能力が得られることを示しています。この発見は、より正確な最適化を推進するためのより良いデータを収集するための非常に実用的なロードマップを提供します。」
「効用モデルの構築は今後も非常に活発な分野であり続けるでしょう」とDaskalakis氏は主張します。「RUMが1990年代後半からインターネット経済に不可欠であったように、今後もAIモデルのアライメントに不可欠であり続けるでしょう。」さらに重要なことに、彼は「RUMは大規模言語モデル(LLM)の商業的実行可能性と有用性において中心的な役割を果たしています」と付け加えます。訓練期間中、人々は通常、これらのLLMのさまざまな候補出力をランク付けするよう求められ、それによってモデルはトーン、スタイル、内容の面でどのようなテキストが好まれるかについてより良い感覚を得ることができます。
多くの分野で「膨大な選択肢の海に常に囲まれている」とDaskalakis氏は言います。「人々にすべての可能なシナリオについての個人的な好みを伝えるよう求めることはできません。代わりにできることは、人々がさまざまな可能な結果についてどう考えるかを予測するモデルを構築することです。そして、良い予測ができるようになるまで、反復プロセスでモデルを改善し更新し続けなければなりません。」