2026-06-21 06:43 UTC+8站内改写1 分钟阅读更新: 2026-06-22 07:31 UTC+8

FunnyBench – AI模型能讲好笑的笑话吗？

FunnyBench是一个让用户对AI模型讲的笑话进行投票的网站，通过贝叶斯评分实时更新排名。每个模型用相同提示“讲个笑话”生成十次笑话，用户投票决定是否有趣，从而评估模型的幽默能力。

来源Hacker News AI作者: Mockapapella

人工智能能否讲出令人捧腹的笑话？FunnyBench网站通过众包投票的方式，对AI模型的幽默能力进行了量化评估。该平台向每个AI模型发送相同的指令——“讲个笑话”，并让模型重复生成十次，以增加多样性。用户浏览笑话后选择“有趣”或“无趣”，投票结果实时驱动一个动态排行榜。

为了确保评估的公正性，FunnyBench在技术细节上做了精心设计。笑话通过OpenRouter的模型目录生成，使用统一的提示词，并在支持的情况下设置温度参数为1。生成过程设置了120秒超时，禁用了供应商回退，并启用了必要参数。系统记录了请求的模型、实际运行的模型以及生成的文本，而令牌数和成本则作为内部数据不公开，以减少干扰。排行榜采用贝叶斯评分算法：每个模型从接近总体平均分的起点开始，随着投票增加而调整。这种方法使得早期排名不会因样本量小而剧烈波动。平台明确区分了请求模型和返回模型，确保测试的透明度。对于推理模型，使用了最低的推理设置，并且有意不捕获推理过程，因为它们不属于向用户展示的笑话内容。

在模型筛选方面，FunnyBench排除了非文本为主的模型、OpenRouter的路由/前端别名、搜索或自定义工具变体、浮动的“最新”别名、价格不可用的模型、重复的免费别名、无效的空输出或过大输出，以及连续五次调用失败的模型。每个保留的模型最终发布十条有效的笑话。目前，FunnyBench正在等待用户的首次投票来开启排行榜。平台邀请每一位用户参与评价，共同探索AI的幽默边界。

FunnyBench的设计不仅为评估AI幽默提供了有趣的方式，也为模型开发者提供了有价值的反馈。通过公开投票和贝叶斯评分，排行榜能够反映真实用户对AI幽默的感知。该平台还计划扩展更多模型和语言，以进一步探索AI在创意领域的潜力。虽然目前尚未有投票，但FunnyBench已经引起了社区的关注，人们期待看到哪个模型能成为最搞笑的AI。