AI News HubLIVE
站內改寫1 分鐘閱讀

FunnyBench – AI模型能講好笑的笑話嗎?

FunnyBench是一個讓用户對AI模型講的笑話進行投票的網站,通過貝葉斯評分實時更新排名。每個模型用相同提示“講個笑話”生成十次笑話,用户投票決定是否有趣,從而評估模型的幽默能力。

來源Hacker News AI作者: Mockapapella

人工智能能否講出令人捧腹的笑話?FunnyBench網站通過眾包投票的方式,對AI模型的幽默能力進行了量化評估。該平台向每個AI模型發送相同的指令——“講個笑話”,並讓模型重複生成十次,以增加多樣性。用户瀏覽笑話後選擇“有趣”或“無趣”,投票結果實時驅動一個動態排行榜。

為了確保評估的公正性,FunnyBench在技術細節上做了精心設計。笑話通過OpenRouter的模型目錄生成,使用統一的提示詞,並在支持的情況下設置温度參數為1。生成過程設置了120秒超時,禁用了供應商回退,並啓用了必要參數。系統記錄了請求的模型、實際運行的模型以及生成的文本,而令牌數和成本則作為內部數據不公開,以減少干擾。排行榜採用貝葉斯評分算法:每個模型從接近總體平均分的起點開始,隨着投票增加而調整。這種方法使得早期排名不會因樣本量小而劇烈波動。平台明確區分了請求模型和返回模型,確保測試的透明度。對於推理模型,使用了最低的推理設置,並且有意不捕獲推理過程,因為它們不屬於向用户展示的笑話內容。

在模型篩選方面,FunnyBench排除了非文本為主的模型、OpenRouter的路由/前端別名、搜索或自定義工具變體、浮動的“最新”別名、價格不可用的模型、重複的免費別名、無效的空輸出或過大輸出,以及連續五次調用失敗的模型。每個保留的模型最終發佈十條有效的笑話。目前,FunnyBench正在等待用户的首次投票來開啓排行榜。平台邀請每一位用户參與評價,共同探索AI的幽默邊界。

FunnyBench的設計不僅為評估AI幽默提供了有趣的方式,也為模型開發者提供了有價值的反饋。通過公開投票和貝葉斯評分,排行榜能夠反映真實用户對AI幽默的感知。該平台還計劃擴展更多模型和語言,以進一步探索AI在創意領域的潛力。雖然目前尚未有投票,但FunnyBench已經引起了社區的關注,人們期待看到哪個模型能成為最搞笑的AI。