2026-06-21 06:43 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-22 07:31 UTC+8

FunnyBench – AI模型能講好笑的笑話嗎？

FunnyBench是一個讓用户對AI模型講的笑話進行投票的網站，通過貝葉斯評分實時更新排名。每個模型用相同提示“講個笑話”生成十次笑話，用户投票決定是否有趣，從而評估模型的幽默能力。

來源Hacker News AI作者: Mockapapella

人工智能能否講出令人捧腹的笑話？FunnyBench網站通過眾包投票的方式，對AI模型的幽默能力進行了量化評估。該平台向每個AI模型發送相同的指令——“講個笑話”，並讓模型重複生成十次，以增加多樣性。用户瀏覽笑話後選擇“有趣”或“無趣”，投票結果實時驅動一個動態排行榜。

為了確保評估的公正性，FunnyBench在技術細節上做了精心設計。笑話通過OpenRouter的模型目錄生成，使用統一的提示詞，並在支持的情況下設置温度參數為1。生成過程設置了120秒超時，禁用了供應商回退，並啓用了必要參數。系統記錄了請求的模型、實際運行的模型以及生成的文本，而令牌數和成本則作為內部數據不公開，以減少干擾。排行榜採用貝葉斯評分算法：每個模型從接近總體平均分的起點開始，隨着投票增加而調整。這種方法使得早期排名不會因樣本量小而劇烈波動。平台明確區分了請求模型和返回模型，確保測試的透明度。對於推理模型，使用了最低的推理設置，並且有意不捕獲推理過程，因為它們不屬於向用户展示的笑話內容。

在模型篩選方面，FunnyBench排除了非文本為主的模型、OpenRouter的路由/前端別名、搜索或自定義工具變體、浮動的“最新”別名、價格不可用的模型、重複的免費別名、無效的空輸出或過大輸出，以及連續五次調用失敗的模型。每個保留的模型最終發佈十條有效的笑話。目前，FunnyBench正在等待用户的首次投票來開啓排行榜。平台邀請每一位用户參與評價，共同探索AI的幽默邊界。

FunnyBench的設計不僅為評估AI幽默提供了有趣的方式，也為模型開發者提供了有價值的反饋。通過公開投票和貝葉斯評分，排行榜能夠反映真實用户對AI幽默的感知。該平台還計劃擴展更多模型和語言，以進一步探索AI在創意領域的潛力。雖然目前尚未有投票，但FunnyBench已經引起了社區的關注，人們期待看到哪個模型能成為最搞笑的AI。