將人類重新置於LLM個性化中心
該研究通過收集550段人類對話及三個階段的判斷數據(提取、配對、響應),揭示了大型語言模型在個性化任務中依賴合成數據與真實人類數據之間的性能差距。模型在提取用户屬性時表現不佳,與人類判斷存在分歧,生成的個性化響應在人類評價中並不優於通用響應。引入兩種輕量級訓練干預能改善前兩個階段,但獎勵模型與人類評分的相關性仍然有限。
儘管人們對大型語言模型(LLM)的個性化能力日益關注,但現有評估大多依賴於合成數據。近日,一篇題為《Re-Centering Humans in LLM Personalization》的論文通過系統性實驗揭示了合成數據與真實人類數據之間的性能差距,並提出了改進方向。研究團隊由Lechen Zhang等三位作者組成,論文提交於2026年6月4日。
研究團隊收集了550段真實人類對話,並針對個性化過程的三個關鍵階段進行了判斷:從對話中提取用户屬性(共5,949次判斷)、將相關屬性與新提示配對(11,919次判斷)、以及將屬性融入個性化響應(1,101次判斷)。這些數據暴露了當前模型的顯著侷限。
在第一階段,模型難以準確提取用户屬性,往往忽略關鍵信息或提取錯誤。第二階段,模型在屬性相關性判斷上與人類存在系統性分歧,人類認為相關的屬性模型可能不認為相關,反之亦然。最令人驚訝的是第三階段:生成的個性化響應在人類評估中並未優於通用響應——儘管LLM自身的評分系統認為這些響應更好。這表明LLM對個性化質量的自我評估與人類偏好存在嚴重脱節。
為縮小這一差距,研究者引入兩種輕量級訓練干預:一是對提取階段進行微調,二是在配對階段使用對比學習。這些干預使前兩個階段的自動評估更接近人類數據。然而,在第三階段,學習到的獎勵模型與人類評分的相關性仍然較低,表明直接建模符合人類偏好的個性化質量判斷十分困難。作者認為,該研究收集的數據為未來探索如何讓模型以對人類有用的方式提取、選擇和使用用户信息奠定了基礎。
這項研究對AI個性化領域具有重要意義。它提供了首個大規模的人類標註數據集,涵蓋個性化的完整流程。研究結果警示,當前依賴合成數據的評估方法可能高估了LLM的個性化能力。未來,研究者需要更加關注人類反饋,開發能夠真正理解用户需求的個性化系統。