2026-06-08 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

UnpredictaBench: LLMの分布ランダム性を評価するベンチマーク

UnpredictaBenchは、大規模言語モデル（LLM）が真の分布を捉える能力を評価する新しいベンチマークです。LLMが経済シミュレーションなどで人間の代わりとして使われるようになる中、多くのモデルが単一の答えに収束する傾向があり、現実システムの予測不可能性を捉えられません。このベンチマークは448の問題から構成され、典型的な統計分布、確率的プログラムによる分布、ランダムプロセスを記述した自然言語シナリオを含みます。KS@N指標を用いて、モデル出力が目標分布にどれだけ近似しているかをKolmogorov-Smirnov検定で評価します。実験の結果、モデルのスコアは大きなばらつきを示し、KS@100では0%近くから20%超まで分布し、40%を超えるモデルはありませんでした。推論を追加するとスコアは多少向上しますが、根本的な解決にはなりません。UnpredictaBenchは、単純な分布シミュレーションでさえ困難であり、複雑なシステムの代役としてLLMを使うための第一歩として必要であることを示しています。

ソースarXiv Computational Linguistics著者: Amirhossein Abaskohi, Amirhossein Dabiriaghdam, Liang Luo, Ellie Dingqiao Wen, Lele Wang, Giuseppe Carenini, Peter West

記事インテリジェンス

投資家上級

要点

UnpredictaBenchは、統計分布、確率的プログラム、自然言語シナリオからのサンプリング能力を評価する。
KS@N指標（Kolmogorov-Smirnov検定）を用いて、モデルサンプルと真の分布の一致度を測定する。
テストしたモデルのKS@100スコアは0%近くから20%超までばらつき、40%を超えるものはなかった。
推論を追加するとスコアは向上するが、根本的な解決には至らず、分布シミュレーションは依然として課題である。

重要な理由

このニュースが重要なのは、UnpredictaBenchは、統計分布、確率的プログラム、自然言語シナリオからのサンプリング能力を評価するためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

大規模言語モデル（LLM）が経済シミュレーションや社会システムのモデリングなどの分野で人間や他のエンティティの代役として使われる機会が増えています。しかし、多くのLLMは最もありそうな答えに収束する傾向があり、実際のシステムが持つ予測不可能性や多様性を捉えることができません。これまでの出力多様性の改善研究は、単に異なる出力を生成することに焦点を当てており、目標分布に較正されたサンプルを生成するというシミュレーションの要件を満たしていませんでした。この課題に取り組むため、研究者らは「UnpredictaBench」という新しいベンチマークを提案しました。

UnpredictaBenchは、LLMが真の分布を捉える能力を評価するために設計されています。ベンチマークは448の問題から構成され、典型的な統計分布（正規分布、指数分布など）、確率的プログラムによって誘導される分布、そしてランダムプロセスを記述した自然言語シナリオの3つのカテゴリに分類されます。評価にはKS@N指標が使用されます。これはKolmogorov-Smirnov検定に基づき、モデルが生成したN個のサンプルが、真の分布からのサンプルと統計的に区別できない割合を測定します。Nが大きいほど難易度が高く、標準指標としてKS@100が採用されています。

実験では、オープンソースおよびプロプライエタリな複数のモデルがテストされました。結果、モデルの分布サンプリング能力には大きなばらつきが見られました。KS@100のスコアは、最も低いもので0%近く、最も高いものでも20%を超える程度でした。驚くべきことに、どのモデルも40%を超えるスコアを達成できず、この能力には大きな改善の余地があることが示されました。チェーン・オブ・ソートなどの推論手法を追加するとスコアはわずかに向上しましたが、根本的な解決には至りませんでした。

UnpredictaBenchは、単純な分布シミュレーションでさえ現在のLLMにとって非常に困難であることを明らかにしました。この研究は、LLMを複雑なシステムの代役として利用するための必要不可欠な第一歩であり、将来のモデル改善の方向性を示しています。研究チームはすべてのコードとデータを公開し、コミュニティの協力を呼びかけています。