話題作為社會人口統計代理:對話上下文如何影響大語言模型回答
研究顯示,在法律、醫療等高風險場景中,即使單次對話歷史也足以導致LLM輸差異。儘管LLM難以從對話推斷使用者社會人口統計資訊,但話題可部分代理該資訊並不可預測地影響建議。
一篇新的研究論文《話題作為社會人口統計代理:對話上下文如何影響大語言模型回答》由Vera Neplenbroek等人撰寫,於2026年6月1日提交至arXiv(編號2606.02776)。該研究聚焦於大語言模型(LLM)在高風險場景中的應用,例如法律諮詢、醫療診斷和財務規劃。研究發現,即使只包含一次對話的歷史記錄,也足以導致不同使用者之間產生結果差異。此前的工作已經表明,這會導致不同社會人口群體之間的結果不均衡,某些群體獲得比其他人更有利的建議。然而,該研究進一步揭示,LLM實際上很難從單次對話歷史中準確推斷使用者的社會人口統計特徵。儘管群體間存在差異,但這些差異的幅度很小。為了探究這些差異的主要驅動因素,研究人員將使用者的社會人口統計資訊與對話的一系列(心理)語言學特徵進行了比較,包括對話話題、情感和可讀性。結果顯示,對話話題是預測LLM在對話上下文中生成建議的最強因素。話題在一定程度上充當了社會人口群體的代理,並常常以不可預測的方式影響建議。這一發現令人擔憂,並凸顯了未來研究需要更好地理解,並在必要時減輕對話上下文對高風險場景中LLM輸出影響的必要性。研究團隊採用了多種語言特徵分析方法,但話題的預測能力最為突出。這意味著,即使LLM無法直接識別使用者的年齡、性別或教育程度,對話所涉及的話題(如醫療、法律或金融)也會間接影響其建議,而這種影響可能並非出於公平考慮。論文的結論強調,在將LLM部署到高風險應用中時,必須謹慎對待對話上下文的潛在偏見,並呼籲開展更多研究以探索如何減輕話題作為代理所帶來的風險。此外,該研究還建議開發更加公平的LLM系統,使其能夠在對話中保持一致性,避免因話題變化而導致建議偏移。這項工作為理解LLM在社會情境中的行為提供了重要見解,併為未來在公平性和透明度方面的研究奠定了基礎。