2026-04-09 19:22 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

ConvApparel：衡量並彌合使用者模擬器中的真實感差距

谷歌研究院釋出ConvApparel資料集和評估框架，用於量化LLM使用者模擬器的真實感差距，並訓練更魯棒的對話代理。透過雙代理資料收集和三支柱驗證，研究發現資料驅動模擬器優於提示基礎，但真實感差距依然存在。

谷歌研究院的研究人員近日釋出了ConvApparel，這是一個全新的人機對話資料集及綜合評估框架，旨在量化基於大型語言模型（LLM）的使用者模擬器中的“真實感差距”，並提升魯棒對話代理的訓練效果。現代對話AI代理通常能處理複雜的多輪任務，如詢問澄清性問題或主動提供幫助，但在長時間互動中常出現遺忘約束或生成無關回應等問題。依賴真人測試雖為“金標準”，但成本高昂且難以規模化。因此，研究社群轉向LLM驅動的使用者模擬器，但現有模擬器存在真實感差距，表現出不切實際的耐心或百科全書式的知識。ConvApparel透過獨特的雙代理資料收集協議來解決這一問題：參與者被隨機分配至一個樂於助人的“好”代理或一個故意不合作的“壞”代理。資料集包含超過4000次多輪對話，近15000輪次，並提供了逐輪標註，記錄了使用者的滿意度、挫敗感等內部狀態。評估框架基於三個支柱：人口統計對齊，檢查模擬對話與真實對話在長度、用詞等聚合統計上的匹配程度；人類相似度評分，訓練自動判別器區分真實與合成對話，輸出“人類度”機率；反事實驗證，將僅在“好”代理上訓練的模擬器與“壞”代理互動，測試其是否如人類般表現出挫敗感。實驗中，研究人員比較了三種模擬器：提示基礎、上下文學習（ICL）和監督微調（SFT）。結果表明，資料驅動方法（ICL和SFT）在統計對齊上優於提示基礎，且在反事實驗證中展現出更強的適應性，但所有模擬器仍能被判別器識別為合成，真實感差距依然顯著。ConvApparel為社群提供了量化並縮小真實感差距的工具。未來工作將聚焦於利用高保真模擬器從頭訓練對話代理，並衡量其真實世界效能，以確定所需的人類相似度程度。