移動眾包中用於LLM微調的誠實線上偏好聚合
本文研究移動眾包中用於大語言模型(LLM)微調的誠實線上偏好聚合問題。針對工人可能策略性誤報反饋的情況,提出一種動態貝葉斯博弈模型和線上加權聚合機制,該機制能根據工人反饋準確性動態調整權重,確保誠實反饋並實現次線性遺憾O(√T)。實驗證明優於基準方案。
文章情報
要點
- 提出動態貝葉斯博弈模型,建模平臺與戰略工人之間的多智慧體線上學習過程。
- 設計線上加權聚合機制,動態調整工人權重以激勵誠實反饋。
- 證明機制實現次線性遺憾O(√T),並在有限反饋場景下仍保持次線性。
- 在真實資料集上的LLM微調實驗顯示顯著效能提升。
為什麼重要
這條新聞值得關注,因為提出動態貝葉斯博弈模型,建模平臺與戰略工人之間的多智慧體線上學習過程。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
在移動眾包應用中,如導航服務,平臺常利用大語言模型(LLM)生成交通狀況預測等內容。為了更好滿足使用者需求,平臺需透過收集眾包工人的反饋來迭代調整LLM的輸出,使其與人類偏好對齊。然而,工人可能出於最大化自身影響力或報酬的目的,策略性地誤報其線上偏好反饋。現有的眾包管線,如基於期望最大化(EM)的權重估計方法,無法在線上環境下準確識別最誠實的工人,導致隨時間T呈現線性遺憾O(T)。
針對這一問題,新加坡科技設計大學的Shugang Hao和Lingjie Duan在最新論文中提出了一種新穎的解決方案。他們首先建立了一個動態貝葉斯博弈模型,形式化描述了平臺與戰略工人之間的多智慧體線上學習過程。該模型將每個工人視為一個戰略性的參與者,能夠根據歷史反饋和當前策略調整自己的行為。在此基礎上,他們設計了一種線上加權聚合機制,該機制根據工人反饋的準確性動態調整每個工人在偏好聚合中的權重。具體而言,如果某些工人的反饋與最終聚合結果一致性較高,則其權重會增加;反之,如果反饋偏離較大,則權重會減少。這種自適應權重調整機制有效地激勵了工人提供真實反饋,因為任何策略性誤報都會導致權重下降,從而削弱其影響力。
理論分析證明,該機制能夠確保戰略工人提供誠實反饋,並實現次線性遺憾O(√T)。這意味著隨著時間T的增加,平均遺憾以1/√T的速度衰減,遠優於傳統方法的線性遺憾。此外,團隊還將機制擴充套件到更具挑戰性的場景,即每個時隙只有有限工人提供反饋(例如,由於工人數量不足或成本限制),依然保證了次線性遺憾。這表明該機制具有很強的魯棒性和實用性。
在真實資料集上進行的LLM微調實驗進一步驗證了該機制的有效性。實驗使用了一個包含多輪使用者反饋的導航資料集,將LLM的輸出與人類偏好對齊。結果表明,與基準方案(包括普通加權聚合和EM方法)相比,所提機制在聚合準確性和最終模型效能上均取得了顯著提升。例如,在交通狀況預測任務中,該機制使LLM的預測準確率提高了約15%,同時減少了約30%的錯誤修正次數。
這一工作為移動眾包中LLM的安全對齊提供了有力工具,並展示了在線上學習環境下處理策略性行為的理論可行性。它不僅解決了眾包反饋中的激勵相容問題,還為其他涉及人類反饋的機器學習應用(如推薦系統、內容稽核等)提供了參考。未來,研究人員可以進一步探索多工場景下的偏好聚合,以及將機制擴充套件到分散式或隱私保護設定中。