2026-06-03 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

話題作為社會人口統計代理：對話上下文如何影響大語言模型回答

研究顯示，在法律、醫療等高風險場景中，即使單次對話歷史也足以導致LLM輸差異。儘管LLM難以從對話推斷使用者社會人口統計資訊，但話題可部分代理該資訊並不可預測地影響建議。

來源arXiv Computational Linguistics作者: Vera Neplenbroek, Gabriele Sarti, Arianna Bisazza, Raquel Fern\'andez

一篇新的研究論文《話題作為社會人口統計代理：對話上下文如何影響大語言模型回答》由Vera Neplenbroek等人撰寫，於2026年6月1日提交至arXiv（編號2606.02776）。該研究聚焦於大語言模型（LLM）在高風險場景中的應用，例如法律諮詢、醫療診斷和財務規劃。研究發現，即使只包含一次對話的歷史記錄，也足以導致不同使用者之間產生結果差異。此前的工作已經表明，這會導致不同社會人口群體之間的結果不均衡，某些群體獲得比其他人更有利的建議。然而，該研究進一步揭示，LLM實際上很難從單次對話歷史中準確推斷使用者的社會人口統計特徵。儘管群體間存在差異，但這些差異的幅度很小。為了探究這些差異的主要驅動因素，研究人員將使用者的社會人口統計資訊與對話的一系列（心理）語言學特徵進行了比較，包括對話話題、情感和可讀性。結果顯示，對話話題是預測LLM在對話上下文中生成建議的最強因素。話題在一定程度上充當了社會人口群體的代理，並常常以不可預測的方式影響建議。這一發現令人擔憂，並凸顯了未來研究需要更好地理解，並在必要時減輕對話上下文對高風險場景中LLM輸出影響的必要性。研究團隊採用了多種語言特徵分析方法，但話題的預測能力最為突出。這意味著，即使LLM無法直接識別使用者的年齡、性別或教育程度，對話所涉及的話題（如醫療、法律或金融）也會間接影響其建議，而這種影響可能並非出於公平考慮。論文的結論強調，在將LLM部署到高風險應用中時，必須謹慎對待對話上下文的潛在偏見，並呼籲開展更多研究以探索如何減輕話題作為代理所帶來的風險。此外，該研究還建議開發更加公平的LLM系統，使其能夠在對話中保持一致性，避免因話題變化而導致建議偏移。這項工作為理解LLM在社會情境中的行為提供了重要見解，併為未來在公平性和透明度方面的研究奠定了基礎。