2026-05-26 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

移动众包中用于LLM微调的诚实在线偏好聚合

本文研究移动众包中用于大语言模型（LLM）微调的诚实在线偏好聚合问题。针对工人可能策略性误报反馈的情况，提出一种动态贝叶斯博弈模型和在线加权聚合机制，该机制能根据工人反馈准确性动态调整权重，确保诚实反馈并实现次线性遗憾O(√T)。实验证明优于基准方案。

来源arXiv Machine Learning作者: Shugang Hao, Lingjie Duan

在移动众包应用中，如导航服务，平台常利用大语言模型（LLM）生成交通状况预测等内容。为了更好满足用户需求，平台需通过收集众包工人的反馈来迭代调整LLM的输出，使其与人类偏好对齐。然而，工人可能出于最大化自身影响力或报酬的目的，策略性地误报其在线偏好反馈。现有的众包管线，如基于期望最大化（EM）的权重估计方法，无法在在线环境下准确识别最诚实的工人，导致随时间T呈现线性遗憾O(T)。

针对这一问题，新加坡科技设计大学的Shugang Hao和Lingjie Duan在最新论文中提出了一种新颖的解决方案。他们首先建立了一个动态贝叶斯博弈模型，形式化描述了平台与战略工人之间的多智能体在线学习过程。该模型将每个工人视为一个战略性的参与者，能够根据历史反馈和当前策略调整自己的行为。在此基础上，他们设计了一种在线加权聚合机制，该机制根据工人反馈的准确性动态调整每个工人在偏好聚合中的权重。具体而言，如果某些工人的反馈与最终聚合结果一致性较高，则其权重会增加；反之，如果反馈偏离较大，则权重会减少。这种自适应权重调整机制有效地激励了工人提供真实反馈，因为任何策略性误报都会导致权重下降，从而削弱其影响力。

理论分析证明，该机制能够确保战略工人提供诚实反馈，并实现次线性遗憾O(√T)。这意味着随着时间T的增加，平均遗憾以1/√T的速度衰减，远优于传统方法的线性遗憾。此外，团队还将机制扩展到更具挑战性的场景，即每个时隙只有有限工人提供反馈（例如，由于工人数量不足或成本限制），依然保证了次线性遗憾。这表明该机制具有很强的鲁棒性和实用性。

在真实数据集上进行的LLM微调实验进一步验证了该机制的有效性。实验使用了一个包含多轮用户反馈的导航数据集，将LLM的输出与人类偏好对齐。结果表明，与基准方案（包括普通加权聚合和EM方法）相比，所提机制在聚合准确性和最终模型性能上均取得了显著提升。例如，在交通状况预测任务中，该机制使LLM的预测准确率提高了约15%，同时减少了约30%的错误修正次数。

这一工作为移动众包中LLM的安全对齐提供了有力工具，并展示了在在线学习环境下处理策略性行为的理论可行性。它不仅解决了众包反馈中的激励兼容问题，还为其他涉及人类反馈的机器学习应用（如推荐系统、内容审核等）提供了参考。未来，研究人员可以进一步探索多任务场景下的偏好聚合，以及将机制扩展到分布式或隐私保护设置中。