2024-02-28 08:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

预测性人类偏好：从模型排名到模型路由

本文探讨了如何预测用户对AI模型回复的偏好，以实现模型路由和提升效率。作者通过实验证明了使用少量数据即可实现偏好预测，并展示了其在不同查询下的表现差异。

在构建AI应用时，选择使用哪个模型是一个常见挑战。如果我们可以预测每个提示词下用户更偏好哪个模型，就能实现模型路由，从而在提高回复质量的同时降低成本与延迟。本文提出了一种预测性人类偏好的方法，并验证了其可行性。

人类偏好已成为AI模型开发的重要指南，用于强化学习从人类反馈（RLHF）和直接偏好优化（DPO）等后训练技术，也被用于模型排名，如LMSYS的Chatbot Arena。作者希望进一步探索：是否能为每个查询预测用户偏好的模型？为此，他们构建了一个偏好预测器，以提示词和模型对作为输入，输出用户偏好的概率。

实验基于LMSYS 2023年7月发布的3.3万条众包比较数据，覆盖20个模型。作者发现，Chatbot Arena使用的Bradley-Terry算法在非平局比赛中的准确率为74.1%。而偏好预测器在不使用提示词时准确率达到75%，使用提示词后提升至76.2%，其中涉及GPT-4的比赛准确率从85.1%升至87%。这表明提示词对模型偏好有显著影响。

尽管预测器训练数据有限且噪声较大，但它仍能捕捉不同模型的性能模式。例如，对于简单提示词，弱模型的表现与强模型相近；而对于复杂提示词，用户更倾向于强模型。预测器还能为任意提示词生成特定领域的排行榜，帮助理解模型的优缺点。作者特别指出，对于俄语查询和代码编写查询，预测器最确信GPT-4会被偏好。

模型路由是预测性人类偏好的重要应用之一。作者指出，多家创业公司（如获得900万美元种子轮的Martian）以及LMSYS本身都在研究模型路由。使用GPT-4进行模型比较成本低廉，生成1万次比较仅需200-500美元。实验表明，预测性人类偏好只需少量数据即可实现，为模型路由和预算规划提供了新思路。此外，模型路由还有助于可解释性，通过绘制模型在不同提示词上的性能图谱，可以了解模型的强项和弱项。

作者的实验虽然粗糙，但表明预测性人类偏好在少量数据下是可行的。随着更多模型的出现，每种模型都有不同的能力和成本结构，模型路由具有明确的经济价值。目前已有四个团队（其中两个尚在保密阶段）在从事模型路由研究，包括LMSYS自身，他们认为这是从比较评估工作的自然延伸。