2024-02-28 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

預測性人類偏好：從模型排名到模型路由

本文探討了如何預測用户對AI模型回覆的偏好，以實現模型路由和提升效率。作者通過實驗證明了使用少量數據即可實現偏好預測，並展示了其在不同查詢下的表現差異。

在構建AI應用時，選擇使用哪個模型是一個常見挑戰。如果我們可以預測每個提示詞下用户更偏好哪個模型，就能實現模型路由，從而在提高回覆質量的同時降低成本與延遲。本文提出了一種預測性人類偏好的方法，並驗證了其可行性。

人類偏好已成為AI模型開發的重要指南，用於強化學習從人類反饋（RLHF）和直接偏好優化（DPO）等後訓練技術，也被用於模型排名，如LMSYS的Chatbot Arena。作者希望進一步探索：是否能為每個查詢預測用户偏好的模型？為此，他們構建了一個偏好預測器，以提示詞和模型對作為輸入，輸出用户偏好的概率。

實驗基於LMSYS 2023年7月發佈的3.3萬條眾包比較數據，覆蓋20個模型。作者發現，Chatbot Arena使用的Bradley-Terry算法在非平局比賽中的準確率為74.1%。而偏好預測器在不使用提示詞時準確率達到75%，使用提示詞後提升至76.2%，其中涉及GPT-4的比賽準確率從85.1%升至87%。這表明提示詞對模型偏好有顯著影響。

儘管預測器訓練數據有限且噪聲較大，但它仍能捕捉不同模型的性能模式。例如，對於簡單提示詞，弱模型的表現與強模型相近；而對於複雜提示詞，用户更傾向於強模型。預測器還能為任意提示詞生成特定領域的排行榜，幫助理解模型的優缺點。作者特別指出，對於俄語查詢和代碼編寫查詢，預測器最確信GPT-4會被偏好。

模型路由是預測性人類偏好的重要應用之一。作者指出，多家創業公司（如獲得900萬美元種子輪的Martian）以及LMSYS本身都在研究模型路由。使用GPT-4進行模型比較成本低廉，生成1萬次比較僅需200-500美元。實驗表明，預測性人類偏好只需少量數據即可實現，為模型路由和預算規劃提供了新思路。此外，模型路由還有助於可解釋性，通過繪製模型在不同提示詞上的性能圖譜，可以瞭解模型的強項和弱項。

作者的實驗雖然粗糙，但表明預測性人類偏好在少量數據下是可行的。隨着更多模型的出現，每種模型都有不同的能力和成本結構，模型路由具有明確的經濟價值。目前已有四個團隊（其中兩個尚在保密階段）在從事模型路由研究，包括LMSYS自身，他們認為這是從比較評估工作的自然延伸。