透過背景故事集為語言模型建立虛擬人格
BAIR研究團隊提出Anthology方法,透過為大型語言模型生成詳細的人物背景故事,使其能夠模擬具有代表性、一致性和多樣性的虛擬人格。該方法在逼近真實人類調查資料方面優於傳統條件設定,為社會科學研究提供了成本效益高的替代方案。
近年來,大型語言模型(LLM)在文本生成方面展現出驚人能力,但如何讓它們模擬特定人類個體的聲音,而非海量文本的平均混合,仍是研究難題。BAIR研究團隊在最新論文中提出了Anthology方法,透過為LLM提供豐富的個人背景故事,使其能夠生成代表不同個體特徵和價值觀的回應。
傳統方法通常僅依賴人口統計變數(如年齡、性別、教育水平)來設定LLM的虛擬人格,但這容易導致刻板印象,且無法捕捉個體層面的差異。Anthology的關鍵創新在於,它使用LLM自身生成大量自然主義的背景故事——透過“告訴我關於你自己”等開放式提示,模型會產出包含文化、社會經濟背景和生活哲學等細節的敘述。這些背景故事隨後被用於條件化LLM,使其在回應時更像一個真實的個體。
研究團隊在Pew研究中心的“美國趨勢小組”(ATP)的三項調查資料上評估了Anthology的效能,包括Wave 34、92和99。他們比較了多種條件設定方法,包括僅使用人口統計標籤、簡短的背景故事等。評估指標包括代表性(Wasserstein距離)、一致性(Frobenius範數)和內部一致性(Cronbach's alpha)。為了計算這些指標的近似下限,他們將人類樣本隨機分成兩組並重復100次。結果顯示,Anthology在所有指標上均優於其他方法,且無論使用Llama-3-70B還是Mixtral-8x22B模型,結論一致。在匹配方法上,貪婪匹配比最大權重匹配表現更好,因為後者的一對一對應約束在虛擬使用者數量有限時會導致較低的人口統計相似性。這些結果說明,豐富的背景故事能夠激發更細緻的響應。
儘管Anthology在提高虛擬人格的逼真度方面前景廣闊,但研究者也指出了潛在風險。例如,生成的背景故事可能延續偏見,或在不經意間洩露敏感資訊。因此,結果需謹慎解讀,且應遵循倫理準則。
未來,研究團隊計劃擴充套件背景故事庫的多樣性和規模,探索自由形式回應生成(而非僅限於多項選擇),並模擬長期行為變化。這些方向將為社會科學研究帶來新的可能性,但同時也伴隨著技術挑戰。Anthology的提出標誌著LLM在模擬人類行為方面邁出了重要一步,有望為使用者研究、民意調查等領域提供更高效、更符合倫理的替代工具。