AI News HubLIVE
サイト内リライト2 分で読了

FunnyBench – AIモデルは面白いジョークを言えるか?

FunnyBenchは、AIモデルが生成したジョークをユーザーが評価し、ベイズスコアでリアルタイムランキングを更新するプラットフォームです。各モデルに同じプロンプト「ジョークを言って」を10回与え、多様性を促進します。

ソースHacker News AI著者: Mockapapella

人工知能は本当に面白いジョークを言えるのでしょうか?FunnyBenchは、クラウドソーシングによる投票でAIモデルのユーモア能力を定量的に評価するウェブサイトです。各モデルに「ジョークを言って」という同じ指示を10回繰り返し、多様性を確保します。ユーザーはジョークを読んで「面白い」か「つまらない」かを選択し、その投票がリアルタイムのリーダーボードを動かします。

公平な評価のために、FunnyBenchは技術的な詳細を慎重に設計しました。ジョークはOpenRouterのモデルカタログを通じて生成され、統一されたプロンプトが使用され、対応するモデルでは温度パラメータが1に設定されています。生成プロセスには120秒のタイムアウトが設定され、プロバイダーのフォールバックは無効化され、必要なパラメーターが有効化されています。リクエストされたモデル、実際に実行されたモデル、生成されたテキストが記録され、トークン数とコストは内部データとして非公開とされ、ノイズを減らしています。

ランキングにはベイズスコアアルゴリズムが採用されています。各モデルは全体平均に近いスコアからスタートし、投票が増えるにつれて調整されます。これにより、初期のランキングがサンプル数の少なさで急激に変動するのを防ぎます。プラットフォームはリクエストモデルと返却モデルを明確に区別し、テストの透明性を確保しています。推論モデルには最低の推論設定が使用され、推論トレースは意図的にキャプチャされていません。これらはユーザーに表示されるジョークの一部ではないからです。

モデルのフィルタリングでは、テキスト以外を主目的とするモデル、OpenRouterのルーター/フロントエンドエイリアス、検索やカスタムツールのバリアント、浮動する「最新」エイリアス、価格不明のモデル、重複する無料エイリアス、無効な空出力や巨大出力、5回連続で呼び出しに失敗したモデルが除外されました。各保持モデルにつき10個の有効なジョークが公開されています。現在、FunnyBenchは初回投票を待ってリーダーボードを開始しようとしています。すべてのユーザーが評価に参加し、AIのユーモアの限界を探求することができます。

FunnyBenchは、AIのユーモア評価に新しい方法を提供するだけでなく、モデル開発者に貴重なフィードバックをもたらします。公開投票とベイズスコアリングにより、リーダーボードは実際のユーザーのユーモア認識を反映します。このプラットフォームは、さらに多くのモデルと言語を追加して、AIの創造的可能性を探求する予定です。まだ投票はありませんが、FunnyBenchはすでにコミュニティの注目を集めており、どのモデルが最も面白いAIになるか期待が高まっています。