UnpredictaBench: LLMの分布ランダム性を評価するベンチマーク
UnpredictaBenchは、大規模言語モデル(LLM)が真の分布を捉える能力を評価する新しいベンチマークです。LLMが経済シミュレーションなどで人間の代わりとして使われるようになる中、多くのモデルが単一の答えに収束する傾向があり、現実システムの予測不可能性を捉えられません。このベンチマークは448の問題から構成され、典型的な統計分布、確率的プログラムによる分布、ランダムプロセスを記述した自然言語シナリオを含みます。KS@N指標を用いて、モデル出力が目標分布にどれだけ近似しているかをKolmogorov-Smirnov検定で評価します。実験の結果、モデルのスコアは大きなばらつきを示し、KS@100では0%近くから20%超まで分布し、40%を超えるモデルはありませんでした。推論を追加するとスコアは多少向上しますが、根本的な解決にはなりません。UnpredictaBenchは、単純な分布シミュレーションでさえ困難であり、複雑なシステムの代役としてLLMを使うための第一歩として必要であることを示しています。
大規模言語モデル(LLM)が経済シミュレーションや社会システムのモデリングなどの分野で人間や他のエンティティの代役として使われる機会が増えています。しかし、多くのLLMは最もありそうな答えに収束する傾向があり、実際のシステムが持つ予測不可能性や多様性を捉えることができません。これまでの出力多様性の改善研究は、単に異なる出力を生成することに焦点を当てており、目標分布に較正されたサンプルを生成するというシミュレーションの要件を満たしていませんでした。この課題に取り組むため、研究者らは「UnpredictaBench」という新しいベンチマークを提案しました。
UnpredictaBenchは、LLMが真の分布を捉える能力を評価するために設計されています。ベンチマークは448の問題から構成され、典型的な統計分布(正規分布、指数分布など)、確率的プログラムによって誘導される分布、そしてランダムプロセスを記述した自然言語シナリオの3つのカテゴリに分類されます。評価にはKS@N指標が使用されます。これはKolmogorov-Smirnov検定に基づき、モデルが生成したN個のサンプルが、真の分布からのサンプルと統計的に区別できない割合を測定します。Nが大きいほど難易度が高く、標準指標としてKS@100が採用されています。
実験では、オープンソースおよびプロプライエタリな複数のモデルがテストされました。結果、モデルの分布サンプリング能力には大きなばらつきが見られました。KS@100のスコアは、最も低いもので0%近く、最も高いものでも20%を超える程度でした。驚くべきことに、どのモデルも40%を超えるスコアを達成できず、この能力には大きな改善の余地があることが示されました。チェーン・オブ・ソートなどの推論手法を追加するとスコアはわずかに向上しましたが、根本的な解決には至りませんでした。
UnpredictaBenchは、単純な分布シミュレーションでさえ現在のLLMにとって非常に困難であることを明らかにしました。この研究は、LLMを複雑なシステムの代役として利用するための必要不可欠な第一歩であり、将来のモデル改善の方向性を示しています。研究チームはすべてのコードとデータを公開し、コミュニティの協力を呼びかけています。