AI News HubLIVE
站內改寫1 分鐘閱讀

FunnyBench – AI模型能講好笑的笑話嗎?

FunnyBench是一個讓使用者對AI模型講的笑話進行投票的網站,透過貝葉斯評分即時更新排名。每個模型用相同提示“講個笑話”生成十次笑話,使用者投票決定是否有趣,從而評估模型的幽默能力。

來源Hacker News AI作者: Mockapapella

人工智慧能否講出令人捧腹的笑話?FunnyBench網站透過眾包投票的方式,對AI模型的幽默能力進行了量化評估。該平臺向每個AI模型傳送相同的指令——“講個笑話”,並讓模型重複生成十次,以增加多樣性。使用者瀏覽笑話後選擇“有趣”或“無趣”,投票結果即時驅動一個動態排行榜。

為了確保評估的公正性,FunnyBench在技術細節上做了精心設計。笑話透過OpenRouter的模型目錄生成,使用統一的提示詞,並在支援的情況下設定溫度引數為1。生成過程設定了120秒超時,停用了供應商回退,並啟用了必要引數。系統記錄了請求的模型、實際執行的模型以及生成的文本,而令牌數和成本則作為內部資料不公開,以減少干擾。排行榜採用貝葉斯評分演算法:每個模型從接近總體平均分的起點開始,隨著投票增加而調整。這種方法使得早期排名不會因樣本量小而劇烈波動。平臺明確區分了請求模型和返回模型,確保測試的透明度。對於推理模型,使用了最低的推理設定,並且有意不捕獲推理過程,因為它們不屬於向使用者展示的笑話內容。

在模型篩選方面,FunnyBench排除了非文本為主的模型、OpenRouter的路由/前端別名、搜尋或自定義工具變體、浮動的“最新”別名、價格不可用的模型、重複的免費別名、無效的空輸出或過大輸出,以及連續五次呼叫失敗的模型。每個保留的模型最終釋出十條有效的笑話。目前,FunnyBench正在等待使用者的首次投票來開啟排行榜。平臺邀請每一位使用者參與評價,共同探索AI的幽默邊界。

FunnyBench的設計不僅為評估AI幽默提供了有趣的方式,也為模型開發者提供了有價值的反饋。透過公開投票和貝葉斯評分,排行榜能夠反映真實使用者對AI幽默的感知。該平臺還計劃擴充套件更多模型和語言,以進一步探索AI在創意領域的潛力。雖然目前尚未有投票,但FunnyBench已經引起了社群的關注,人們期待看到哪個模型能成為最搞笑的AI。