AI News HubLIVE
站内改写1 分钟阅读

FunnyBench – AI模型能讲好笑的笑话吗?

FunnyBench是一个让用户对AI模型讲的笑话进行投票的网站,通过贝叶斯评分实时更新排名。每个模型用相同提示“讲个笑话”生成十次笑话,用户投票决定是否有趣,从而评估模型的幽默能力。

来源Hacker News AI作者: Mockapapella

人工智能能否讲出令人捧腹的笑话?FunnyBench网站通过众包投票的方式,对AI模型的幽默能力进行了量化评估。该平台向每个AI模型发送相同的指令——“讲个笑话”,并让模型重复生成十次,以增加多样性。用户浏览笑话后选择“有趣”或“无趣”,投票结果实时驱动一个动态排行榜。

为了确保评估的公正性,FunnyBench在技术细节上做了精心设计。笑话通过OpenRouter的模型目录生成,使用统一的提示词,并在支持的情况下设置温度参数为1。生成过程设置了120秒超时,禁用了供应商回退,并启用了必要参数。系统记录了请求的模型、实际运行的模型以及生成的文本,而令牌数和成本则作为内部数据不公开,以减少干扰。排行榜采用贝叶斯评分算法:每个模型从接近总体平均分的起点开始,随着投票增加而调整。这种方法使得早期排名不会因样本量小而剧烈波动。平台明确区分了请求模型和返回模型,确保测试的透明度。对于推理模型,使用了最低的推理设置,并且有意不捕获推理过程,因为它们不属于向用户展示的笑话内容。

在模型筛选方面,FunnyBench排除了非文本为主的模型、OpenRouter的路由/前端别名、搜索或自定义工具变体、浮动的“最新”别名、价格不可用的模型、重复的免费别名、无效的空输出或过大输出,以及连续五次调用失败的模型。每个保留的模型最终发布十条有效的笑话。目前,FunnyBench正在等待用户的首次投票来开启排行榜。平台邀请每一位用户参与评价,共同探索AI的幽默边界。

FunnyBench的设计不仅为评估AI幽默提供了有趣的方式,也为模型开发者提供了有价值的反馈。通过公开投票和贝叶斯评分,排行榜能够反映真实用户对AI幽默的感知。该平台还计划扩展更多模型和语言,以进一步探索AI在创意领域的潜力。虽然目前尚未有投票,但FunnyBench已经引起了社区的关注,人们期待看到哪个模型能成为最搞笑的AI。