2026-06-21 06:43 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-22 07:31 UTC+8

FunnyBench – AI模型能講好笑的笑話嗎？

FunnyBench是一個讓使用者對AI模型講的笑話進行投票的網站，透過貝葉斯評分即時更新排名。每個模型用相同提示“講個笑話”生成十次笑話，使用者投票決定是否有趣，從而評估模型的幽默能力。

來源Hacker News AI作者: Mockapapella

人工智慧能否講出令人捧腹的笑話？FunnyBench網站透過眾包投票的方式，對AI模型的幽默能力進行了量化評估。該平臺向每個AI模型傳送相同的指令——“講個笑話”，並讓模型重複生成十次，以增加多樣性。使用者瀏覽笑話後選擇“有趣”或“無趣”，投票結果即時驅動一個動態排行榜。

為了確保評估的公正性，FunnyBench在技術細節上做了精心設計。笑話透過OpenRouter的模型目錄生成，使用統一的提示詞，並在支援的情況下設定溫度引數為1。生成過程設定了120秒超時，停用了供應商回退，並啟用了必要引數。系統記錄了請求的模型、實際執行的模型以及生成的文本，而令牌數和成本則作為內部資料不公開，以減少干擾。排行榜採用貝葉斯評分演算法：每個模型從接近總體平均分的起點開始，隨著投票增加而調整。這種方法使得早期排名不會因樣本量小而劇烈波動。平臺明確區分了請求模型和返回模型，確保測試的透明度。對於推理模型，使用了最低的推理設定，並且有意不捕獲推理過程，因為它們不屬於向使用者展示的笑話內容。

在模型篩選方面，FunnyBench排除了非文本為主的模型、OpenRouter的路由/前端別名、搜尋或自定義工具變體、浮動的“最新”別名、價格不可用的模型、重複的免費別名、無效的空輸出或過大輸出，以及連續五次呼叫失敗的模型。每個保留的模型最終釋出十條有效的笑話。目前，FunnyBench正在等待使用者的首次投票來開啟排行榜。平臺邀請每一位使用者參與評價，共同探索AI的幽默邊界。

FunnyBench的設計不僅為評估AI幽默提供了有趣的方式，也為模型開發者提供了有價值的反饋。透過公開投票和貝葉斯評分，排行榜能夠反映真實使用者對AI幽默的感知。該平臺還計劃擴充套件更多模型和語言，以進一步探索AI在創意領域的潛力。雖然目前尚未有投票，但FunnyBench已經引起了社群的關注，人們期待看到哪個模型能成為最搞笑的AI。