2024-02-28 09:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-27 09:25 UTC+9

予測的人間選好：モデルランキングからモデルルーティングへ

本記事では、AIモデルの応答に対するユーザーの選好を予測し、モデルルーティングと効率化を実現する方法を探る。著者は少量のデータで選好予測が可能であることを実験で示し、異なるプロンプトでの性能を明らかにした。

ソースChip Huyen

記事インテリジェンス

エンジニア上級

要点

予測的人間選好は、各プロンプトに対してユーザーが好むモデルを予測し、モデルルーティングや予算計画に活用できる。
Chatbot Arenaのランキング精度は74.1%だが、プロンプトを考慮した選好予測器は76.2%に達する。
予測器は任意のプロンプトに対してドメイン固有のリーダーボードを生成し、モデルの強みと弱みを明らかにする。
モデルルーティングには明確な経済的価値があり、複数のチームが研究を進めている。

重要な理由

このニュースが重要なのは、予測的人間選好は、各プロンプトに対してユーザーが好むモデルを予測し、モデルルーティングや予算計画に活用できるためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

AIアプリケーションを構築する際、どのモデルを使用するかは重要な課題です。各プロンプトに対してユーザーがどのモデルを好むかを事前に予測できれば、モデルルーティングにより応答品質を向上させつつ、コストとレイテンシを削減できます。本稿では、予測的人間選好の手法とその有用性を検証します。

人間選好は、RLHFやDPOなどのポストトレーニング技術や、LMSYSのChatbot Arenaによるモデルランキングに活用されています。著者はさらに踏み込み、各クエリに対するモデルの選好を予測することを目指しました。そのために、プロンプトとモデルペアを入力とし、ユーザーの選好確率を出力する予測器を構築しました。

実験には、LMSYSが2023年7月に公開した33,000件のクラウドソーシング比較データ（20モデル分）を使用しました。Chatbot ArenaのBradley-Terryアルゴリズムの精度は74.1%（非引き分けマッチ）。一方、著者の予測器はプロンプトなしで75%、プロンプトありで76.2%の精度を達成し、GPT-4を含むマッチでは87%に達しました。これはプロンプトがモデル選好に影響を与えることを示しています。

予測器は限られたノイズの多いデータで訓練されましたが、モデルの性能パターンを捉えることができました。簡単なプロンプトでは弱いモデルも強いモデルと同等に機能する一方、難しいプロンプトではユーザーは強いモデルを好む傾向があります。また、任意のプロンプトに対してドメイン固有のリーダーボードを生成でき、モデルの解釈可能性向上にも貢献します。著者は、ロシア語のクエリやコード作成のクエリに対して、GPT-4が最も好まれると予測されることを特に指摘しています。

モデルルーティングは予測的人間選好の主要な応用事例です。著者の知る限り、4つのグループ（うち2つはステルス）がモデルルーティングに取り組んでおり、スタートアップのMartianは900万ドルのシードラウンドを発表しました。GPT-4を用いた比較は低コストで、10,000件の比較で200～500ドルしかかかりません。実験結果は、予測的人間選好が少量のデータで実現可能であり、モデルルーティングや予算計画に有用であることを示しています。さらに、モデルルーティングは解釈可能性にも役立ち、さまざまなプロンプトに対するモデルのパフォーマンスをマッピングすることで、モデルの強みと弱みを理解することができます。

著者の初歩的な実験は、予測的人間選好が驚くほど少ないデータで実現可能であることを示唆しています。より多くのモデルが開発され、それぞれ異なる能力とコスト構造を持つようになるにつれて、モデルルーティングは明確な経済的価値を持ちます。現在、4つのグループ（2つはステルス状態）がモデルルーティングに取り組んでおり、LMSYS自身もその研究を進めています。彼らは、これは比較評価の仕事からの自然な進化であると考えています。