ConvApparel:衡量並彌合使用者模擬器中的真實感差距
谷歌研究院釋出ConvApparel資料集和評估框架,用於量化LLM使用者模擬器的真實感差距,並訓練更魯棒的對話代理。透過雙代理資料收集和三支柱驗證,研究發現資料驅動模擬器優於提示基礎,但真實感差距依然存在。
谷歌研究院的研究人員近日釋出了ConvApparel,這是一個全新的人機對話資料集及綜合評估框架,旨在量化基於大型語言模型(LLM)的使用者模擬器中的“真實感差距”,並提升魯棒對話代理的訓練效果。現代對話AI代理通常能處理複雜的多輪任務,如詢問澄清性問題或主動提供幫助,但在長時間互動中常出現遺忘約束或生成無關回應等問題。依賴真人測試雖為“金標準”,但成本高昂且難以規模化。因此,研究社群轉向LLM驅動的使用者模擬器,但現有模擬器存在真實感差距,表現出不切實際的耐心或百科全書式的知識。ConvApparel透過獨特的雙代理資料收集協議來解決這一問題:參與者被隨機分配至一個樂於助人的“好”代理或一個故意不合作的“壞”代理。資料集包含超過4000次多輪對話,近15000輪次,並提供了逐輪標註,記錄了使用者的滿意度、挫敗感等內部狀態。評估框架基於三個支柱:人口統計對齊,檢查模擬對話與真實對話在長度、用詞等聚合統計上的匹配程度;人類相似度評分,訓練自動判別器區分真實與合成對話,輸出“人類度”機率;反事實驗證,將僅在“好”代理上訓練的模擬器與“壞”代理互動,測試其是否如人類般表現出挫敗感。實驗中,研究人員比較了三種模擬器:提示基礎、上下文學習(ICL)和監督微調(SFT)。結果表明,資料驅動方法(ICL和SFT)在統計對齊上優於提示基礎,且在反事實驗證中展現出更強的適應性,但所有模擬器仍能被判別器識別為合成,真實感差距依然顯著。ConvApparel為社群提供了量化並縮小真實感差距的工具。未來工作將聚焦於利用高保真模擬器從頭訓練對話代理,並衡量其真實世界效能,以確定所需的人類相似度程度。