AIソーシャルシミュレーションが現実を予測するかテストするローカル環境
開発者が、マルチエージェントソーシャルシミュレーション(MiroFishなど)が単一のLLMよりも実際の公衆反応を予測できるかをテストするローカル環境を構築しました。小規模モデルと合成ケースを用いた予備的結果では、単一LLMが粗いスウォームシミュレーションと感情方向で互角、反論想起で優れ、集約信号はノイズであることが示されました。このツールはオープンソースでOllama上で動作し、シミュレーション分野での適切なキャリブレーションの必要性を強調しています。
インフラ・DevOpsエンジニアが、マルチエージェントソーシャルシミュレーション(MiroFish、OASIS、CAMEL-AIなど)の予測能力を公平に評価するためのオープンソースプロジェクト「mirofish-calibration」を公開しました。このツールはOllama上で完全ローカル動作し、クラウドを必要とせず、透明性と主権を重視しています。
背景として、現在のソーシャルシミュレーション分野では、ドキュメントを入力し数百のAIペルソナを生成して公衆反応を予測することが宣伝されていますが、キャリブレーションや比較ベースラインが欠如しています。著者は、多くのデモが単一ケースで印象的な結果を示すだけで、単一のLLMと比較したことがないと指摘します。そのため、再現可能なテストフレームワークを構築しました。
予備テストでは、5つの合成ケースとQwen2.5:7Bモデルを使用し、3つの予測器(相互作用なしのミニスウォーム、ゼロショット単一LLM、常に「混合」のダミーベースライン)を比較。感情方向の精度ではミニスウォーム(64%)と単一LLM(52%)に大差ありませんでしたが、反論想起率では単一LLMが圧倒(84% vs 71%)。さらに、シミュレーションが得意とされる集約シグナル(バイラリティの大きさ、分極度)は5サンプルではノイズと化し、スピアマン相関係数は実行間で符号が反転し統計的に有意ではありませんでした。シミュレーションの相互作用ラウンドを追加しても改善は見られませんでした。
著者は、これがMiroFishに対する最終的な判定ではなく、方法論のリハーサルであると強調。現在のテストには多くの制限があります:サンプルサイズが小さい(n=5)、ケースが合成、シミュレーションの実装が粗い、単一の小規模モデルのみ使用。真の検証には、多数の実世界ケース、複数のシード、実際のMiroFishエンジンが必要です。
プロジェクトのアーキテクチャは明確です:刺激とグラウンドトゥルースを含むケースファイル(YAML)、交換可能な予測器、複数の指標(感情方向、反論想起/適合率、バイラリティと分極の順位相関)、そして正直なレポートを生成するツール。クイックスタートは、依存関係のインストール、Ollamaの設定、数コマンドの実行で完了します。
著者はコミュニティへの貢献を奨励:カットオフ後の実世界ケースの追加(LLMの記憶を避けるため)、MiroFishアダプターの実装(harness/adapters/mirofish.py)、N≧30での実行によるノイズ克服。プロジェクトはMITライセンスで提供され、AIエージェント分野での自己証明を推進します。
このツールを通じて、著者はシミュレーションカテゴリーに立証責任を移し、開発者がデモではなく方法論でエンジンの予測能力を検証することを促しています。