預測性人類偏好:從模型排名到模型路由
本文探討了如何預測用户對AI模型回覆的偏好,以實現模型路由和提升效率。作者通過實驗證明了使用少量數據即可實現偏好預測,並展示了其在不同查詢下的表現差異。
在構建AI應用時,選擇使用哪個模型是一個常見挑戰。如果我們可以預測每個提示詞下用户更偏好哪個模型,就能實現模型路由,從而在提高回覆質量的同時降低成本與延遲。本文提出了一種預測性人類偏好的方法,並驗證了其可行性。
人類偏好已成為AI模型開發的重要指南,用於強化學習從人類反饋(RLHF)和直接偏好優化(DPO)等後訓練技術,也被用於模型排名,如LMSYS的Chatbot Arena。作者希望進一步探索:是否能為每個查詢預測用户偏好的模型?為此,他們構建了一個偏好預測器,以提示詞和模型對作為輸入,輸出用户偏好的概率。
實驗基於LMSYS 2023年7月發佈的3.3萬條眾包比較數據,覆蓋20個模型。作者發現,Chatbot Arena使用的Bradley-Terry算法在非平局比賽中的準確率為74.1%。而偏好預測器在不使用提示詞時準確率達到75%,使用提示詞後提升至76.2%,其中涉及GPT-4的比賽準確率從85.1%升至87%。這表明提示詞對模型偏好有顯著影響。
儘管預測器訓練數據有限且噪聲較大,但它仍能捕捉不同模型的性能模式。例如,對於簡單提示詞,弱模型的表現與強模型相近;而對於複雜提示詞,用户更傾向於強模型。預測器還能為任意提示詞生成特定領域的排行榜,幫助理解模型的優缺點。作者特別指出,對於俄語查詢和代碼編寫查詢,預測器最確信GPT-4會被偏好。
模型路由是預測性人類偏好的重要應用之一。作者指出,多家創業公司(如獲得900萬美元種子輪的Martian)以及LMSYS本身都在研究模型路由。使用GPT-4進行模型比較成本低廉,生成1萬次比較僅需200-500美元。實驗表明,預測性人類偏好只需少量數據即可實現,為模型路由和預算規劃提供了新思路。此外,模型路由還有助於可解釋性,通過繪製模型在不同提示詞上的性能圖譜,可以瞭解模型的強項和弱項。
作者的實驗雖然粗糙,但表明預測性人類偏好在少量數據下是可行的。隨着更多模型的出現,每種模型都有不同的能力和成本結構,模型路由具有明確的經濟價值。目前已有四個團隊(其中兩個尚在保密階段)在從事模型路由研究,包括LMSYS自身,他們認為這是從比較評估工作的自然延伸。