预测性人类偏好:从模型排名到模型路由
本文探讨了如何预测用户对AI模型回复的偏好,以实现模型路由和提升效率。作者通过实验证明了使用少量数据即可实现偏好预测,并展示了其在不同查询下的表现差异。
在构建AI应用时,选择使用哪个模型是一个常见挑战。如果我们可以预测每个提示词下用户更偏好哪个模型,就能实现模型路由,从而在提高回复质量的同时降低成本与延迟。本文提出了一种预测性人类偏好的方法,并验证了其可行性。
人类偏好已成为AI模型开发的重要指南,用于强化学习从人类反馈(RLHF)和直接偏好优化(DPO)等后训练技术,也被用于模型排名,如LMSYS的Chatbot Arena。作者希望进一步探索:是否能为每个查询预测用户偏好的模型?为此,他们构建了一个偏好预测器,以提示词和模型对作为输入,输出用户偏好的概率。
实验基于LMSYS 2023年7月发布的3.3万条众包比较数据,覆盖20个模型。作者发现,Chatbot Arena使用的Bradley-Terry算法在非平局比赛中的准确率为74.1%。而偏好预测器在不使用提示词时准确率达到75%,使用提示词后提升至76.2%,其中涉及GPT-4的比赛准确率从85.1%升至87%。这表明提示词对模型偏好有显著影响。
尽管预测器训练数据有限且噪声较大,但它仍能捕捉不同模型的性能模式。例如,对于简单提示词,弱模型的表现与强模型相近;而对于复杂提示词,用户更倾向于强模型。预测器还能为任意提示词生成特定领域的排行榜,帮助理解模型的优缺点。作者特别指出,对于俄语查询和代码编写查询,预测器最确信GPT-4会被偏好。
模型路由是预测性人类偏好的重要应用之一。作者指出,多家创业公司(如获得900万美元种子轮的Martian)以及LMSYS本身都在研究模型路由。使用GPT-4进行模型比较成本低廉,生成1万次比较仅需200-500美元。实验表明,预测性人类偏好只需少量数据即可实现,为模型路由和预算规划提供了新思路。此外,模型路由还有助于可解释性,通过绘制模型在不同提示词上的性能图谱,可以了解模型的强项和弱项。
作者的实验虽然粗糙,但表明预测性人类偏好在少量数据下是可行的。随着更多模型的出现,每种模型都有不同的能力和成本结构,模型路由具有明确的经济价值。目前已有四个团队(其中两个尚在保密阶段)在从事模型路由研究,包括LMSYS自身,他们认为这是从比较评估工作的自然延伸。